論文の概要: Beyond Viewpoint Generalization: What Multi-View Demonstrations Offer and How to Synthesize Them for Robot Manipulation?
- arxiv url: http://arxiv.org/abs/2603.26757v1
- Date: Mon, 23 Mar 2026 15:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.578329
- Title: Beyond Viewpoint Generalization: What Multi-View Demonstrations Offer and How to Synthesize Them for Robot Manipulation?
- Title(参考訳): 視点一般化を超えて:ロボット操作における多視点デモとは何か?
- Authors: Boyang Cai, Qiwei Liang, Jiawei Li, Shihang Weng, Zhaoxin Zhang, Tao Lin, Xiangyu Chen, Wenjie Zhang, Jiaqi Mao, Weisheng Xu, Bin Yang, Jiaming Liang, Junhao Cai, Renjing Xu,
- Abstract要約: マルチビューデモは、単一ビューポリシーの成功と一般化を継続的に改善する。
メカニスティック解析は、多視点学習が操作関連視覚表現を促進することを示している。
モノクラー入力から新規ビュー映像を合成するジオメトリ対応の自己教師型フレームワークであるRoboNVSを提案する。
- 参考スコア(独自算出の注目度): 28.177241923955435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Does multi-view demonstration truly improve robot manipulation, or merely enhance cross-view robustness? We present a systematic study quantifying the performance gains, scaling behavior, and underlying mechanisms of multi-view data for robot manipulation. Controlled experiments show that, under both fixed and randomized backgrounds, multi-view demonstrations consistently improve single-view policy success and generalization. Performance varies non-monotonically with view coverage, revealing effective regimes rather than a simple "more is better" trend. Notably, multi-view data breaks the scaling limitation of single-view datasets and continues to raise performance ceilings after saturation. Mechanistic analysis shows that multi-view learning promotes manipulation-relevant visual representations, better aligns the action head with the learned feature distribution, and reduces overfitting. Motivated by the importance of multi-view data and its scarcity in large-scale robotic datasets, as well as the difficulty of collecting additional viewpoints in real world settings, we propose RoboNVS, a geometry-aware self-supervised framework that synthesizes novel-view videos from monocular inputs. The generated data consistently improves downstream policies in both simulation and real-world environments.
- Abstract(参考訳): マルチビューデモは本当にロボット操作を改善するのか、それとも単にクロスビューロバスト性を高めるのか?
本稿では,ロボット操作のためのマルチビューデータの性能向上,スケーリング行動,および基盤メカニズムを定量的に検討する。
制御された実験は、固定された背景とランダムな背景の両方において、複数ビューの実証が一貫して単一ビューのポリシーの成功と一般化を改善することを示した。
パフォーマンスは、ビューカバレッジとともに単調に変化し、単純な"もっとよい"トレンドではなく、効果的なレジームを明らかにします。
特に、マルチビューデータはシングルビューデータセットのスケーリング制限を破り、飽和後のパフォーマンス天井の上昇を継続する。
メカニスティック解析により、多視点学習は操作関連視覚表現を促進し、アクションヘッドと学習特徴分布との整合性を向上し、過度な適合を減少させることが示された。
大規模ロボットデータセットにおける多視点データの重要性と不足,および実世界の環境における新たな視点の収集の難しさから,モノクル入力から新規ビュー映像を合成する幾何学的自己管理フレームワークであるRoboNVSを提案する。
生成されたデータは、シミュレーションと実環境の両方において、ダウンストリームポリシーを一貫して改善する。
関連論文リスト
- Data Analogies Enable Efficient Cross-Embodiment Transfer [72.88252238231269]
汎用ロボットポリシーは、さまざまなロボット、シーン、視点で収集されたデモに基づいて訓練される。
ロボットのセットアップ間での移動を可能にする上で、最も有用なデモデータの種類は何か?
我々の模擬実験は、視点のような知覚的な変化は幅広い多様性から最も恩恵を受けるが、形態学的な変化は非構造的な多様性から非常に恩恵を受けないことを示している。
論文 参考訳(メタデータ) (2026-03-06T16:42:46Z) - RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation [38.65727896970541]
大規模なデータセットから視覚的なアイデンティティプールをキュレートするためのスケーラブルなパイプラインを構築しています。
付加的な操作データを用いて、下流での視覚-言語-アクションとビジュモータポリシーモデルを訓練すると、シミュレーションと実ロボット設定の両方で一貫したパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2026-01-08T18:59:22Z) - Invariance Co-training for Robot Visual Generalization [72.88252238231269]
多様な観察から推論することは、汎用的なロボットポリシーが幅広い環境で動作するための基本的な能力である。
多様なデータによる協調学習は,既存の生成的拡張法よりも18%向上することを示した。
論文 参考訳(メタデータ) (2025-12-04T20:08:46Z) - EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。
本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。
DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。
AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文 参考訳(メタデータ) (2025-09-26T14:34:44Z) - View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。
本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文 参考訳(メタデータ) (2024-09-05T16:39:21Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。