論文の概要: Scaling Robot Learning with Semantically Imagined Experience
- arxiv url: http://arxiv.org/abs/2302.11550v1
- Date: Wed, 22 Feb 2023 18:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 14:07:51.392311
- Title: Scaling Robot Learning with Semantically Imagined Experience
- Title(参考訳): セマンティックな体験によるロボット学習のスケーリング
- Authors: Tianhe Yu, Ted Xiao, Austin Stone, Jonathan Tompson, Anthony Brohan,
Su Wang, Jaspiar Singh, Clayton Tan, Dee M, Jodilyn Peralta, Brian Ichter,
Karol Hausman, Fei Xia
- Abstract要約: ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
- 参考スコア(独自算出の注目度): 21.361979238427722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in robot learning have shown promise in enabling robots to
perform a variety of manipulation tasks and generalize to novel scenarios. One
of the key contributing factors to this progress is the scale of robot data
used to train the models. To obtain large-scale datasets, prior approaches have
relied on either demonstrations requiring high human involvement or
engineering-heavy autonomous data collection schemes, both of which are
challenging to scale. To mitigate this issue, we propose an alternative route
and leverage text-to-image foundation models widely used in computer vision and
natural language processing to obtain meaningful data for robot learning
without requiring additional robot data. We term our method Robot Learning with
Semantically Imagened Experience (ROSIE). Specifically, we make use of the
state of the art text-to-image diffusion models and perform aggressive data
augmentation on top of our existing robotic manipulation datasets via
inpainting various unseen objects for manipulation, backgrounds, and
distractors with text guidance. Through extensive real-world experiments, we
show that manipulation policies trained on data augmented this way are able to
solve completely unseen tasks with new objects and can behave more robustly
w.r.t. novel distractors. In addition, we find that we can improve the
robustness and generalization of high-level robot learning tasks such as
success detection through training with the diffusion-based data augmentation.
The project's website and videos can be found at diffusion-rosie.github.io
- Abstract(参考訳): ロボット学習の最近の進歩は、ロボットが様々な操作タスクを実行し、新しいシナリオに一般化できることを約束している。
この進歩の重要な要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
大規模なデータセットを得るためには、従来のアプローチは、高い人間の関与を必要とするデモや、エンジニアリングに重きを置く自律的なデータ収集スキームに頼っていた。
この問題を軽減するため,コンピュータビジョンや自然言語処理で広く用いられているテキストから画像への基礎モデルを用いて,ロボットデータの追加を必要とせず,ロボット学習のための有意義なデータを得る。
本手法は,セマンティック画像体験を用いたロボット学習(ROSIE)と呼ぶ。
具体的には,アートなテキストから画像への拡散モデルの現状を利用し,テキスト誘導による操作,背景,気晴らしのための様々な未認識オブジェクトを塗り替えることで,既存のロボット操作データセットの上に積極的なデータ拡張を行う。
広範にわたる実世界の実験を通して、この方法で強化されたデータに基づいて訓練された操作ポリシーは、新しいオブジェクトで完全に見えないタスクを解決し、より堅牢に振る舞うことができることを示す。
さらに,拡散型データ拡張によるトレーニングによる成功検出などの高レベルのロボット学習タスクの堅牢性と一般化を向上できることがわかった。
プロジェクトのwebサイトとビデオは diffusion-rosie.github.io で見ることができる。
関連論文リスト
- Semantically Controllable Augmentations for Generalizable Robot Learning [40.89398799604755]
ロボット操作の現実に見えないシナリオへの一般化には、トレーニング中にさまざまなデータセットを公開する必要がある。
本稿では,意味制御可能な拡張とロボットデータセットの高速乗算のための生成的拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-02T05:25:34Z) - HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。
実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文 参考訳(メタデータ) (2024-07-26T17:59:52Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。