論文の概要: Habitat-Web: Learning Embodied Object-Search Strategies from Human
Demonstrations at Scale
- arxiv url: http://arxiv.org/abs/2204.03514v2
- Date: Fri, 8 Apr 2022 14:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 12:12:20.338177
- Title: Habitat-Web: Learning Embodied Object-Search Strategies from Human
Demonstrations at Scale
- Title(参考訳): Habitat-Web: スケールでの人間デモから身体的オブジェクト検索戦略を学ぶ
- Authors: Ram Ramrakhya and Eric Undersander and Dhruv Batra and Abhishek Das
- Abstract要約: 本研究では,仮想ロボットが新しい環境における物体の探索を行うタスクにおいて,人間の実演を模倣する大規模研究を提案する。
我々は,Webブラウザ上で動作するHabitatシミュレータをAmazon Mechanical Turkに接続する仮想遠隔操作データ収集インフラストラクチャを開発した。
ObjectNavの80kのデモとPick&Placeの12kのデモを集めています。
- 参考スコア(独自算出の注目度): 32.99734623016128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a large-scale study of imitating human demonstrations on tasks
that require a virtual robot to search for objects in new environments -- (1)
ObjectGoal Navigation (e.g. 'find & go to a chair') and (2) Pick&Place (e.g.
'find mug, pick mug, find counter, place mug on counter'). First, we develop a
virtual teleoperation data-collection infrastructure -- connecting Habitat
simulator running in a web browser to Amazon Mechanical Turk, allowing remote
users to teleoperate virtual robots, safely and at scale. We collect 80k
demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an
order of magnitude larger than existing human demonstration datasets in
simulation or on real robots.
Second, we attempt to answer the question -- how does large-scale imitation
learning (IL) (which hasn't been hitherto possible) compare to reinforcement
learning (RL) (which is the status quo)? On ObjectNav, we find that IL (with no
bells or whistles) using 70k human demonstrations outperforms RL using 240k
agent-gathered trajectories. The IL-trained agent demonstrates efficient
object-search behavior -- it peeks into rooms, checks corners for small
objects, turns in place to get a panoramic view -- none of these are exhibited
as prominently by the RL agent, and to induce these behaviors via RL would
require tedious reward engineering. Finally, accuracy vs. training data size
plots show promising scaling behavior, suggesting that simply collecting more
demonstrations is likely to advance the state of art further. On Pick&Place,
the comparison is starker -- IL agents achieve ${\sim}$18% success on episodes
with new object-receptacle locations when trained with 9.5k human
demonstrations, while RL agents fail to get beyond 0%. Overall, our work
provides compelling evidence for investing in large-scale imitation learning.
Project page: https://ram81.github.io/projects/habitat-web.
- Abstract(参考訳): 本研究では, 仮想ロボットが新しい環境の物体を探索するために必要なタスクにおいて, 人間の実演を模倣する大規模な研究について述べる。(1) オブジェクトゴールナビゲーション(例えば, 椅子へ行きなさい)と(2) ピック&プレイス(例えば, フィンドマグ、ピックマグ、カウンタ、ポットマグ、カウンターをカウンターに置きます)。
First, we develop a virtual teleoperation data-collection infrastructure -- connecting Habitat simulator running in a web browser to Amazon Mechanical Turk, allowing remote users to teleoperate virtual robots, safely and at scale. We collect 80k demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an order of magnitude larger than existing human demonstration datasets in simulation or on real robots. Second, we attempt to answer the question -- how does large-scale imitation learning (IL) (which hasn't been hitherto possible) compare to reinforcement learning (RL) (which is the status quo)?
ObjectNavでは,70k人の実演を用いたIL(ベルや笛のない)が240kのエージェント収集軌道でRLを上回っていることがわかった。
ILで訓練されたエージェントは、効率的な物体探索の振る舞いを示します -- 部屋を覗き込み、小さな物体の隅を覗き込み、パノラマ的な視界を得るために回転します -- これらはいずれもRLエージェントによって顕著に示されません。
最後に、正確性とトレーニングデータサイズプロットは有望なスケーリング動作を示し、より多くのデモンストレーションを収集するだけで、さらなる最先端技術がもたらされる可能性が示唆されている。
ピック&プレースでは、ilエージェントが9.5kの人間のデモンストレーションで訓練された場合、新しいオブジェクトレセプタクルロケーションでエピソードで${\sim}$18%の成功を収める一方、rlエージェントは0%を超えない。
全体として、我々の研究は大規模な模倣学習に投資するための説得力のある証拠を提供する。
プロジェクトページ: https://ram81.github.io/projects/habitat-web
関連論文リスト
- RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots [25.650235551519952]
本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。
私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。
本実験は, 大規模模倣学習のための合成ロボットデータを用いて, スケーリングの傾向を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-04T17:41:31Z) - SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World [46.02807945490169]
シミュレーションにおける最短パスプランナーの模倣は,RGBセンサ(深度マップやGPS座標なし)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うエージェントを生成することを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
論文 参考訳(メタデータ) (2023-12-05T18:59:45Z) - MimicGen: A Data Generation System for Scalable Robot Learning using
Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。
ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2023-10-26T17:17:31Z) - Decoupling Skill Learning from Robotic Control for Generalizable Object
Manipulation [35.34044822433743]
ロボット操作の最近の研究は、様々なタスクに取り組む可能性を示している。
これは関節制御のための高次元の作用空間によるものであると推測する。
本稿では,「何をすべきか」を「どうやるか」から「どうやるか」を学習するタスクを,別のアプローチで分離する。
ロボットキネマティック・コントロールは、作業空間のゴールに到達するために高次元の関節運動を実行するように最適化されている。
論文 参考訳(メタデータ) (2023-03-07T16:31:13Z) - Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。
関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文 参考訳(メタデータ) (2022-12-14T18:46:14Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - IGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday
Household Tasks [60.930678878024366]
より多様な家庭用タスクのシミュレーションを支援するシミュレーション環境iGibson 2.0を提案する。
まず、iGibson 2.0は、温度、湿性レベル、清潔度レベル、トグルとスライスされた状態を含むオブジェクト状態をサポートする。
第2に、iGibson 2.0は述語論理関数のセットを実装し、シミュレータ状態をCookedやSoakedのような論理状態にマッピングする。
第3に、iGibson 2.0にはバーチャルリアリティ(VR)インターフェースがあり、人間をシーンに浸してデモを収集する。
論文 参考訳(メタデータ) (2021-08-06T18:41:39Z) - Learning Affordance Landscapes for Interaction Exploration in 3D
Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。
相互作用探索のための強化学習手法を提案する。
AI2-iTHORで私たちのアイデアを実証します。
論文 参考訳(メタデータ) (2020-08-21T00:29:36Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。