論文の概要: Semantically Controllable Augmentations for Generalizable Robot Learning
- arxiv url: http://arxiv.org/abs/2409.00951v1
- Date: Mon, 2 Sep 2024 05:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 08:08:59.603894
- Title: Semantically Controllable Augmentations for Generalizable Robot Learning
- Title(参考訳): 汎用ロボット学習のための意味制御可能な拡張
- Authors: Zoey Chen, Zhao Mandi, Homanga Bharadhwaj, Mohit Sharma, Shuran Song, Abhishek Gupta, Vikash Kumar,
- Abstract要約: ロボット操作の現実に見えないシナリオへの一般化には、トレーニング中にさまざまなデータセットを公開する必要がある。
本稿では,意味制御可能な拡張とロボットデータセットの高速乗算のための生成的拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.89398799604755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization to unseen real-world scenarios for robot manipulation requires exposure to diverse datasets during training. However, collecting large real-world datasets is intractable due to high operational costs. For robot learning to generalize despite these challenges, it is essential to leverage sources of data or priors beyond the robot's direct experience. In this work, we posit that image-text generative models, which are pre-trained on large corpora of web-scraped data, can serve as such a data source. These generative models encompass a broad range of real-world scenarios beyond a robot's direct experience and can synthesize novel synthetic experiences that expose robotic agents to additional world priors aiding real-world generalization at no extra cost. In particular, our approach leverages pre-trained generative models as an effective tool for data augmentation. We propose a generative augmentation framework for semantically controllable augmentations and rapidly multiplying robot datasets while inducing rich variations that enable real-world generalization. Based on diverse augmentations of robot data, we show how scalable robot manipulation policies can be trained and deployed both in simulation and in unseen real-world environments such as kitchens and table-tops. By demonstrating the effectiveness of image-text generative models in diverse real-world robotic applications, our generative augmentation framework provides a scalable and efficient path for boosting generalization in robot learning at no extra human cost.
- Abstract(参考訳): ロボット操作の現実に見えないシナリオへの一般化には、トレーニング中にさまざまなデータセットを公開する必要がある。
しかし、運用コストが高いため、大規模な実世界のデータセットの収集は困難である。
これらの課題にもかかわらず、ロボット学習が一般化するには、ロボットの直接的な経験を超えて、データや事前のソースを活用することが不可欠である。
本研究では,大量のWebスクラッドデータに対して事前学習された画像テキスト生成モデルが,そのようなデータソースとして機能することを示す。
これらの生成モデルは、ロボットの直接体験を超えた幅広い現実のシナリオを含み、ロボットエージェントが現実世界の一般化を余分なコストで支援する追加の世界に露出する新しい合成体験を合成することができる。
特に,本手法では,事前学習した生成モデルをデータ拡張の有効なツールとして活用する。
本稿では,実世界の一般化を可能にする豊富なバリエーションを誘導しながら,意味制御可能な拡張とロボットデータセットの高速乗算のための生成的拡張フレームワークを提案する。
ロボットデータの多種多様な拡張に基づいて、シミュレーションとキッチンやテーブルトップのような目に見えない現実環境の両方において、スケーラブルなロボット操作ポリシーがいかに訓練され、デプロイされるかを示す。
実世界の多様なロボットアプリケーションにおける画像テキスト生成モデルの有効性を実証することにより、我々の生成拡張フレームワークは、人間の余分なコストでロボット学習の一般化を促進するためのスケーラブルで効率的な経路を提供する。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation [49.03165169369552]
さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。
そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。
我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。
論文 参考訳(メタデータ) (2024-08-21T17:57:51Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。