論文の概要: Efficient Data Collection for Robotic Manipulation via Compositional Generalization
- arxiv url: http://arxiv.org/abs/2403.05110v2
- Date: Tue, 21 May 2024 14:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:22:08.275953
- Title: Efficient Data Collection for Robotic Manipulation via Compositional Generalization
- Title(参考訳): 合成一般化によるロボットマニピュレーションのための効率的なデータ収集
- Authors: Jensen Gao, Annie Xie, Ted Xiao, Chelsea Finn, Dorsa Sadigh,
- Abstract要約: 本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
- 参考スコア(独自算出の注目度): 70.76782930312746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data collection has become an increasingly important problem in robotic manipulation, yet there still lacks much understanding of how to effectively collect data to facilitate broad generalization. Recent works on large-scale robotic data collection typically vary many environmental factors of variation (e.g., object types, table textures) during data collection, to cover a diverse range of scenarios. However, they do not explicitly account for the possible compositional abilities of policies trained on the data. If robot policies can compose environmental factors from their data to succeed when encountering unseen factor combinations, we can exploit this to avoid collecting data for situations that composition would address. To investigate this possibility, we conduct thorough empirical studies both in simulation and on a real robot that compare data collection strategies and assess whether visual imitation learning policies can compose environmental factors. We find that policies do exhibit composition, although leveraging prior robotic datasets is critical for this on a real robot. We use these insights to propose better in-domain data collection strategies that exploit composition, which can induce better generalization than naive approaches for the same amount of effort during data collection. We further demonstrate that a real robot policy trained on data from such a strategy achieves a success rate of 77.5% when transferred to entirely new environments that encompass unseen combinations of environmental factors, whereas policies trained using data collected without accounting for environmental variation fail to transfer effectively, with a success rate of only 2.5%. We provide videos at http://iliad.stanford.edu/robot-data-comp/.
- Abstract(参考訳): データ収集は、ロボット操作においてますます重要な問題となっているが、より広範な一般化を促進するために、効果的にデータを収集する方法についての理解が乏しい。
大規模ロボットデータ収集に関する最近の研究は、典型的には、さまざまなシナリオをカバーするために、データ収集中の多くの環境要因(例えば、オブジェクトタイプ、テーブルテクスチャ)が異なる。
しかし、データに基づいてトレーニングされたポリシーの構成能力は明確に説明されていない。
もしロボットのポリシーがデータから環境要因を合成して、見知らぬ要因の組み合わせに遭遇した場合に成功させることができれば、構成が対処する状況のデータを収集するのを避けるために、これを活用できる。
この可能性を検討するため、シミュレーションと実際のロボットの両方において、データ収集戦略を比較し、視覚模倣学習ポリシーが環境要因を構成することができるかどうかを評価する。
ポリシーは構成を示すが、実際のロボットでは、事前のロボットデータセットを活用することが重要である。
我々はこれらの洞察を用いて、データ収集の同じ作業量に対して、単純なアプローチよりも優れた一般化をもたらすことができる構成を活用するドメイン内データ収集戦略を提案する。
さらに、このような戦略からデータに基づいて訓練された真のロボット政策が、環境要因の見当たらない組み合わせを含む全く新しい環境に移行した場合、77.5%の成功率を達成する一方で、環境変動を考慮せずに収集されたデータを用いて訓練されたポリシーは、成功率を2.5%に抑えることができないことを実証した。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
関連論文リスト
- PoCo: Policy Composition from and for Heterogeneous Robot Learning [44.1315170137613]
現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
論文 参考訳(メタデータ) (2024-02-04T14:51:49Z) - Robot Fleet Learning via Policy Merging [58.5086287737653]
我々はFLEET-MERGEを提案し、艦隊設定における政策を効率的にマージする。
本稿では,FLEET-MERGEがメタワールド環境における50のタスクで訓練されたポリシーの行動を統合することを示す。
合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFLEET-TOOLSを導入する。
論文 参考訳(メタデータ) (2023-10-02T17:23:51Z) - BridgeData V2: A Dataset for Robot Learning at Scale [73.86688388408021]
BridgeData V2は、ロボット操作行動の大規模で多様なデータセットである。
対象は、24の環境にまたがる60,096個のトラジェクトリだ。
論文 参考訳(メタデータ) (2023-08-24T17:41:20Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - Synthetic Dataset Generation for Adversarial Machine Learning Research [0.0]
既存の逆例研究は、既存の自然画像データセットの上にデジタル挿入された摂動に焦点を当てている。
この敵の例の構築は現実的ではない、なぜなら攻撃者が検知や環境の影響により現実世界にそのような攻撃を展開することは困難、あるいは不可能であるかもしれないからである。
サイバー物理システムに対する敵の例をよりよく理解するために,シミュレーションによる実世界の近似を提案する。
論文 参考訳(メタデータ) (2022-07-21T19:14:44Z) - Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain
Datasets [122.85598648289789]
マルチドメインとマルチタスクのデータセットが、新しい環境における新しいタスクの学習を改善する方法について検討する。
また、新しいドメイン内の少数のタスクのみのデータによって、ドメインギャップを埋めることができ、ロボットが他のドメインでしか見られなかったさまざまなタスクを実行できることもわかりました。
論文 参考訳(メタデータ) (2021-09-27T23:42:12Z) - Efficient Self-Supervised Data Collection for Offline Robot Learning [17.461103383630853]
ロボット強化学習の実用的なアプローチは、まずリアルまたはシミュレートされたロボット相互作用データの大規模なバッチを収集することです。
我々は,新しい観測結果にデータ収集を積極的に焦点をあてる,簡便な目標条件強化学習法を開発した。
論文 参考訳(メタデータ) (2021-05-10T18:42:58Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。