論文の概要: Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning
- arxiv url: http://arxiv.org/abs/2408.14037v1
- Date: Mon, 26 Aug 2024 06:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:52:59.873088
- Title: Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning
- Title(参考訳): Re-Mix: 大規模な模倣学習のためのデータ混合の最適化
- Authors: Joey Hejna, Chethan Bhateja, Yichen Jian, Karl Pertsch, Dorsa Sadigh,
- Abstract要約: ロボット基礎モデル事前学習のためのロボットデータセットの異なるサブセットやドメインの重み付けについて検討する。
我々の手法であるRe-Mixは、ロボットデータセットにDROを適用する際に生じる幅広い課題に対処する。
- 参考スコア(独自算出の注目度): 25.359270812682155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasingly large imitation learning datasets are being collected with the goal of training foundation models for robotics. However, despite the fact that data selection has been of utmost importance in vision and natural language processing, little work in robotics has questioned what data such models should actually be trained on. In this work we investigate how to weigh different subsets or ``domains'' of robotics datasets for robot foundation model pre-training. Concrete, we use distributionally robust optimization (DRO) to maximize worst-case performance across all possible downstream domains. Our method, Re-Mix, addresses the wide range of challenges that arise when applying DRO to robotics datasets including variability in action spaces and dynamics across different datasets. Re-Mix employs early stopping, action normalization, and discretization to counteract these issues. Through extensive experimentation on the largest open-source robot manipulation dataset, the Open X-Embodiment dataset, we demonstrate that data curation can have an outsized impact on downstream performance. Specifically, domain weights learned by Re-Mix outperform uniform weights by 38\% on average and outperform human-selected weights by 32\% on datasets used to train existing generalist robot policies, specifically the RT-X models.
- Abstract(参考訳): ロボット工学の基礎モデルをトレーニングする目的で、ますます大規模な模倣学習データセットが収集されている。
しかし、データ選択が視覚と自然言語処理において最も重要であるという事実にもかかわらず、ロボット工学における研究はほとんど、そのようなモデルが実際にトレーニングされるべきデータに疑問を呈していない。
本研究では,ロボット基礎モデルの事前学習において,ロボットデータセットの「領域」や「サブセット」の重み付けについて検討する。
具体的には、分散ロバスト最適化(DRO)を用いて、可能なすべての下流領域における最悪の性能を最大化する。
我々の手法であるRe-Mixは、DROをロボットデータセットに適用する際に生じる幅広い課題に対処する。
Re-Mixはこれらの問題に対処するために早期停止、行動正規化、離散化を採用している。
オープンソースのロボット操作データセットであるOpen X-Embodimentデータセットの広範な実験を通じて、データキュレーションが下流のパフォーマンスに大きな影響を及ぼすことを示した。
具体的には、Re-Mixが学んだドメインウェイトは、一般的なロボットポリシー、特にRT-Xモデルをトレーニングするために使用するデータセットで平均38\%、平均32\%、平均32\%で均一ウェイトを上回ります。
関連論文リスト
- Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation [16.809190349155525]
最近の研究は、人間のデータを用いた大規模な事前学習に変わった。
人間とロボットの形態的差異は、有意な人間-ロボットドメインの相違をもたらす。
そこで本研究では,容易に利用可能な人間ロボットのビデオデータを利用して,その相違を補う新しい適応パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-20T11:57:46Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文 参考訳(メタデータ) (2024-03-08T07:15:38Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - BridgeData V2: A Dataset for Robot Learning at Scale [73.86688388408021]
BridgeData V2は、ロボット操作行動の大規模で多様なデータセットである。
対象は、24の環境にまたがる60,096個のトラジェクトリだ。
論文 参考訳(メタデータ) (2023-08-24T17:41:20Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - InPars: Data Augmentation for Information Retrieval using Large Language
Models [5.851846467503597]
本研究では,大規模な事前学習型言語モデルの,情報検索タスクのための合成データ生成機能を利用する。
我々は、教師なしデータセットのみに微調整されたモデルが、BM25のような強力なベースラインより優れていることを示す。
教師付きデータと我々の合成データの両方に微調整されたレトリバーは、教師付きデータにのみ微調整されたモデルよりも優れたゼロショット転送を実現する。
論文 参考訳(メタデータ) (2022-02-10T16:52:45Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。