Fugu-MT 論文翻訳(概要): Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale

論文の概要: Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale

arxiv url: http://arxiv.org/abs/2204.03514v2
Date: Fri, 8 Apr 2022 14:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-11 12:12:20.338177
Title: Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale
Title（参考訳）: Habitat-Web: スケールでの人間デモから身体的オブジェクト検索戦略を学ぶ
Authors: Ram Ramrakhya and Eric Undersander and Dhruv Batra and Abhishek Das
Abstract要約: 本研究では,仮想ロボットが新しい環境における物体の探索を行うタスクにおいて,人間の実演を模倣する大規模研究を提案する。我々は,Webブラウザ上で動作するHabitatシミュレータをAmazon Mechanical Turkに接続する仮想遠隔操作データ収集インフラストラクチャを開発した。 ObjectNavの80kのデモとPick&Placeの12kのデモを集めています。
参考スコア（独自算出の注目度）: 32.99734623016128
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a large-scale study of imitating human demonstrations on tasks that require a virtual robot to search for objects in new environments -- (1) ObjectGoal Navigation (e.g. 'find & go to a chair') and (2) Pick&Place (e.g. 'find mug, pick mug, find counter, place mug on counter'). First, we develop a virtual teleoperation data-collection infrastructure -- connecting Habitat simulator running in a web browser to Amazon Mechanical Turk, allowing remote users to teleoperate virtual robots, safely and at scale. We collect 80k demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an order of magnitude larger than existing human demonstration datasets in simulation or on real robots. Second, we attempt to answer the question -- how does large-scale imitation learning (IL) (which hasn't been hitherto possible) compare to reinforcement learning (RL) (which is the status quo)? On ObjectNav, we find that IL (with no bells or whistles) using 70k human demonstrations outperforms RL using 240k agent-gathered trajectories. The IL-trained agent demonstrates efficient object-search behavior -- it peeks into rooms, checks corners for small objects, turns in place to get a panoramic view -- none of these are exhibited as prominently by the RL agent, and to induce these behaviors via RL would require tedious reward engineering. Finally, accuracy vs. training data size plots show promising scaling behavior, suggesting that simply collecting more demonstrations is likely to advance the state of art further. On Pick&Place, the comparison is starker -- IL agents achieve ${\sim}$18% success on episodes with new object-receptacle locations when trained with 9.5k human demonstrations, while RL agents fail to get beyond 0%. Overall, our work provides compelling evidence for investing in large-scale imitation learning. Project page: https://ram81.github.io/projects/habitat-web.
Abstract（参考訳）: 本研究では, 仮想ロボットが新しい環境の物体を探索するために必要なタスクにおいて, 人間の実演を模倣する大規模な研究について述べる。(1) オブジェクトゴールナビゲーション(例えば, 椅子へ行きなさい)と(2) ピック&プレイス(例えば, フィンドマグ、ピックマグ、カウンタ、ポットマグ、カウンターをカウンターに置きます)。 First, we develop a virtual teleoperation data-collection infrastructure -- connecting Habitat simulator running in a web browser to Amazon Mechanical Turk, allowing remote users to teleoperate virtual robots, safely and at scale. We collect 80k demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an order of magnitude larger than existing human demonstration datasets in simulation or on real robots. Second, we attempt to answer the question -- how does large-scale imitation learning (IL) (which hasn't been hitherto possible) compare to reinforcement learning (RL) (which is the status quo)? ObjectNavでは,70k人の実演を用いたIL(ベルや笛のない)が240kのエージェント収集軌道でRLを上回っていることがわかった。 ILで訓練されたエージェントは、効率的な物体探索の振る舞いを示します -- 部屋を覗き込み、小さな物体の隅を覗き込み、パノラマ的な視界を得るために回転します -- これらはいずれもRLエージェントによって顕著に示されません。最後に、正確性とトレーニングデータサイズプロットは有望なスケーリング動作を示し、より多くのデモンストレーションを収集するだけで、さらなる最先端技術がもたらされる可能性が示唆されている。ピック&プレースでは、ilエージェントが9.5kの人間のデモンストレーションで訓練された場合、新しいオブジェクトレセプタクルロケーションでエピソードで${\sim}$18%の成功を収める一方、rlエージェントは0%を超えない。全体として、我々の研究は大規模な模倣学習に投資するための説得力のある証拠を提供する。プロジェクトページ: https://ram81.github.io/projects/habitat-web

関連論文リスト

Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration [21.94699075066712]
ロボットに巧妙な操作スキルを教えるには、何百ものデモをウェアラブルや遠隔操作で集める必要がある。我々は,デクスタラスな操作ポリシーをトレーニングするための,新しい実-実-実-実-実-実-実-のフレームワークであるHuman2Sim2Robotを提案する。
論文参考訳（メタデータ） (2025-04-17T03:15:20Z)
Robot Learning with Super-Linear Scaling [20.730206708381704]
CASHERは、データ収集と学習をシミュレーションでスケールアップするためのパイプラインであり、パフォーマンスは人間の努力と超直線的にスケールする。そこで我々は,CASHERにより,人的努力を伴わないビデオスキャンにより,事前学習したポリシーを目標シナリオに微調整できることを示す。
論文参考訳（メタデータ） (2024-12-02T18:12:02Z)
RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots [25.650235551519952]
本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。本実験は, 大規模模倣学習のための合成ロボットデータを用いて, スケーリングの傾向を明らかにするものである。
論文参考訳（メタデータ） (2024-06-04T17:41:31Z)
SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World [46.02807945490169]
シミュレーションにおける最短パスプランナーの模倣は,RGBセンサ(深度マップやGPS座標なし)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うエージェントを生成することを示す。この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
論文参考訳（メタデータ） (2023-12-05T18:59:45Z)
MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文参考訳（メタデータ） (2023-10-26T17:17:31Z)
Decoupling Skill Learning from Robotic Control for Generalizable Object Manipulation [35.34044822433743]
ロボット操作の最近の研究は、様々なタスクに取り組む可能性を示している。これは関節制御のための高次元の作用空間によるものであると推測する。本稿では,「何をすべきか」を「どうやるか」から「どうやるか」を学習するタスクを,別のアプローチで分離する。ロボットキネマティック・コントロールは、作業空間のゴールに到達するために高次元の関節運動を実行するように最適化されている。
論文参考訳（メタデータ） (2023-03-07T16:31:13Z)
Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文参考訳（メタデータ） (2022-12-14T18:46:14Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
IGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks [60.930678878024366]
より多様な家庭用タスクのシミュレーションを支援するシミュレーション環境iGibson 2.0を提案する。まず、iGibson 2.0は、温度、湿性レベル、清潔度レベル、トグルとスライスされた状態を含むオブジェクト状態をサポートする。第2に、iGibson 2.0は述語論理関数のセットを実装し、シミュレータ状態をCookedやSoakedのような論理状態にマッピングする。第3に、iGibson 2.0にはバーチャルリアリティ(VR)インターフェースがあり、人間をシーンに浸してデモを収集する。
論文参考訳（メタデータ） (2021-08-06T18:41:39Z)
Learning Affordance Landscapes for Interaction Exploration in 3D Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。相互作用探索のための強化学習手法を提案する。 AI2-iTHORで私たちのアイデアを実証します。
論文参考訳（メタデータ） (2020-08-21T00:29:36Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。