論文の概要: A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2602.01067v1
- Date: Sun, 01 Feb 2026 07:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.058646
- Title: A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation
- Title(参考訳): ロボットマニピュレーションのための大規模行動モデルの共同学習のためのデータモダリティと戦略の体系的研究
- Authors: Fanqi Lin, Kushal Arora, Jean Mercat, Haruki Nishimura, Paarth Shah, Chen Xu, Mengchao Zhang, Mark Zolotas, Maya Angeles, Owen Pfannenstiehl, Andrew Beaulieu, Jose Barreiros,
- Abstract要約: 大規模行動モデルでは、模倣学習をマルチタスクロボットデータによる大規模トレーニングに拡張することで、厳密な操作能力を示している。
最近の研究は、目標となるロボットデータと異種データモダリティから共同で学習するコトレーニングに依存している。
本稿では,標準的な視覚言語データ,ロボット軌道用高密度言語アノテーション,クロス・エボディメント・ロボットデータ,ヒューマンビデオ,離散ロボットアクショントークンの5つのコトレーニングデータモダリティについて,大規模な実証的研究を行った。
- 参考スコア(独自算出の注目度): 11.026552246133521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large behavior models have shown strong dexterous manipulation capabilities by extending imitation learning to large-scale training on multi-task robot data, yet their generalization remains limited by the insufficient robot data coverage. To expand this coverage without costly additional data collection, recent work relies on co-training: jointly learning from target robot data and heterogeneous data modalities. However, how different co-training data modalities and strategies affect policy performance remains poorly understood. We present a large-scale empirical study examining five co-training data modalities: standard vision-language data, dense language annotations for robot trajectories, cross-embodiment robot data, human videos, and discrete robot action tokens across single- and multi-phase training strategies. Our study leverages 4,000 hours of robot and human manipulation data and 50M vision-language samples to train vision-language-action policies. We evaluate 89 policies over 58,000 simulation rollouts and 2,835 real-world rollouts. Our results show that co-training with forms of vision-language and cross-embodiment robot data substantially improves generalization to distribution shifts, unseen tasks, and language following, while discrete action token variants yield no significant benefits. Combining effective modalities produces cumulative gains and enables rapid adaptation to unseen long-horizon dexterous tasks via fine-tuning. Training exclusively on robot data degrades the visiolinguistic understanding of the vision-language model backbone, while co-training with effective modalities restores these capabilities. Explicitly conditioning action generation on chain-of-thought traces learned from co-training data does not improve performance in our simulation benchmark. Together, these results provide practical guidance for building scalable generalist robot policies.
- Abstract(参考訳): 大規模行動モデルでは、模倣学習をマルチタスクロボットデータに対する大規模トレーニングに拡張することで、厳密な操作能力を示しているが、その一般化は、不十分なロボットデータカバレッジによって制限されている。
コストのかかるデータ収集を必要とせずに、このカバレッジを拡張するために、最近の研究は、目標となるロボットデータと異種データモダリティから共同で学習するコトレーニングに依存している。
しかし、データモダリティと戦略の相違が政策パフォーマンスにどのように影響するかは、まだよく分かっていない。
本稿では,標準的な視覚言語データ,ロボットトラジェクトリ用高密度言語アノテーション,クロスエボディメントロボットデータ,ヒューマンビデオ,単相および多相のトレーニング戦略における離散ロボットアクショントークンの5つのコトレーニングデータモダリティについて,大規模な実証的研究を行った。
本研究は、4000時間に及ぶロボットと人間の操作データと5000万の視覚言語サンプルを利用して、視覚言語アクションポリシーを訓練する。
58,000のシミュレーションロールアウトと2,835の現実世界ロールアウトに対して89のポリシーを評価した。
この結果から,視覚・言語・異体間ロボットデータによる協調学習は,分散シフト,未知のタスク,言語追従への一般化を著しく改善する一方で,離散アクショントークンの変種は有意な利益を得られないことが示唆された。
効果的なモダリティを組み合わせることで累積ゲインを発生させ、微調整によって見つからない長い水平なタスクに迅速に適応することができる。
ロボットデータ専用のトレーニングは、視覚言語モデルバックボーンの視覚言語学的理解を低下させ、効果的なモダリティとの共同トレーニングはこれらの能力を回復させる。
協調学習データから得られたチェーンオブソートトレースの明示的な条件付け動作生成は,シミュレーションベンチマークでは性能が向上しない。
これらの結果は、スケーラブルなジェネラリストロボットポリシーを構築するための実践的なガイダンスを提供する。
関連論文リスト
- Latent Policy Steering with Embodiment-Agnostic Pretrained World Models [7.706435284226842]
我々は,既存の費用対効果のあるデータを活用することで,ロボットの動作を学習する際のデータ収集の労力を削減することを目的としている。
我々は,多身体データを用いた世界モデル(WM)のトレーニングを行うために,光学フローを具体化に依存しない動作表現として利用する。
我々は,WMの潜在空間を探索して行動閉鎖ポリシーの出力を改善する手法,LPS (Latent Policy Steering) を開発した。
論文 参考訳(メタデータ) (2025-07-17T17:57:57Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。
本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:54:06Z) - Autonomous Improvement of Instruction Following Skills via Foundation Models [44.63552778566584]
自律的に収集された経験から改善できる知能的な指示追従ロボットは、ロボット学習を変革する可能性がある。
人的監督なしに自律的に収集したデータから、指示追従ポリシーを改善できる新しいアプローチを提案する。
実世界において、我々のアプローチの有効性を実証する広範な実験を行い、目に見えない環境のスイートにおいて、自律的に収集されたデータを用いてロボットポリシーを2倍に改善できることを見出した。
論文 参考訳(メタデータ) (2024-07-30T08:26:44Z) - Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文 参考訳(メタデータ) (2024-03-08T07:15:38Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。