論文の概要: Action-Free Reasoning for Policy Generalization
- arxiv url: http://arxiv.org/abs/2502.03729v2
- Date: Tue, 11 Feb 2025 04:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:06:46.661022
- Title: Action-Free Reasoning for Policy Generalization
- Title(参考訳): 政策一般化のためのアクションフリー推論
- Authors: Jaden Clark, Suvir Mirchandani, Dorsa Sadigh, Suneel Belkhale,
- Abstract要約: RAD(Action-free Data)による推論は、ロボットのデモデータとアクションフリーのビデオデータの両方から学習する。
RADはエボディメントギャップを越えて効果的な移動を可能にし、ロボットはアクションフリーのデータでしか見えないタスクを実行できる。
我々は、Bridge V2ベンチマークと互換性のある推論アノテーションを備えた、3,377人の人手によるデモの新しいデータセットをリリースする。
- 参考スコア(独自算出の注目度): 23.34099331171177
- License:
- Abstract: End-to-end imitation learning offers a promising approach for training robot policies. However, generalizing to new settings remains a significant challenge. Although large-scale robot demonstration datasets have shown potential for inducing generalization, they are resource-intensive to scale. In contrast, human video data is abundant and diverse, presenting an attractive alternative. Yet, these human-video datasets lack action labels, complicating their use in imitation learning. Existing methods attempt to extract grounded action representations (e.g., hand poses), but resulting policies struggle to bridge the embodiment gap between human and robot actions. We propose an alternative approach: leveraging language-based reasoning from human videos-essential for guiding robot actions-to train generalizable robot policies. Building on recent advances in reasoning-based policy architectures, we introduce Reasoning through Action-free Data (RAD). RAD learns from both robot demonstration data (with reasoning and action labels) and action-free human video data (with only reasoning labels). The robot data teaches the model to map reasoning to low-level actions, while the action-free data enhances reasoning capabilities. Additionally, we will release a new dataset of 3,377 human-hand demonstrations with reasoning annotations compatible with the Bridge V2 benchmark and aimed at facilitating future research on reasoning-driven robot learning. Our experiments show that RAD enables effective transfer across the embodiment gap, allowing robots to perform tasks seen only in action-free data. Furthermore, scaling up action-free reasoning data significantly improves policy performance and generalization to novel tasks. These results highlight the promise of reasoning-driven learning from action-free datasets for advancing generalizable robot control. Project page: https://rad-generalization.github.io
- Abstract(参考訳): エンドツーエンドの模倣学習は、ロボットポリシーのトレーニングに有望なアプローチを提供する。
しかし、新しい設定への一般化は依然として大きな課題である。
大規模なロボットデモデータセットは、一般化を誘発する可能性を示しているが、スケールするにはリソース集約である。
対照的に、人間のビデオデータは豊富で多様なものであり、魅力的な代替手段である。
しかし、これらの人間のビデオデータセットにはアクションラベルがなく、模倣学習での使用を複雑にしている。
既存の方法は、接地されたアクション表現(例えば、手ポーズ)を抽出しようとするが、その結果、ポリシーは人間とロボットのアクションの間のエンボディメントギャップを埋めるのに苦労する。
本稿では,人間ビデオからの言語に基づく推論を利用してロボット行動の指導を行い,一般化可能なロボットポリシーを訓練するアプローチを提案する。
推論に基づくポリシーアーキテクチャの最近の進歩に基づいて、Action-free Data (RAD)による推論を紹介する。
RADは、ロボットのデモデータ(推論とアクションラベルを含む)と、アクションフリーな人間のビデオデータ(推論ラベルのみを含む)から学習する。
ロボットデータは、推論を低レベルのアクションにマッピングするモデルを教え、アクションフリーデータは推論能力を高める。
さらに、Bridge V2ベンチマークと互換性のある推論アノテーションを備えた3,377人の人手によるデモのデータセットをリリースし、推論駆動型ロボット学習の今後の研究を促進することを目的としている。
実験の結果,RADはエボディメントギャップを越えて効果的に移動可能であり,ロボットはアクションフリーのデータにのみ見られるタスクを実行できることがわかった。
さらに、アクションフリー推論データのスケールアップにより、ポリシー性能と新しいタスクへの一般化が大幅に向上する。
これらの結果は、汎用ロボット制御を推進するためのアクションフリーデータセットからの推論駆動学習の可能性を浮き彫りにした。
プロジェクトページ: https://rad- generalization.github.io
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。