論文の概要: ProcTHOR: Large-Scale Embodied AI Using Procedural Generation
- arxiv url: http://arxiv.org/abs/2206.06994v1
- Date: Tue, 14 Jun 2022 17:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:10:38.691915
- Title: ProcTHOR: Large-Scale Embodied AI Using Procedural Generation
- Title(参考訳): ProcTHOR: 手続き生成を用いた大規模体操AI
- Authors: Matt Deitke, Eli VanderBilt, Alvaro Herrasti, Luca Weihs, Jordi
Salvador, Kiana Ehsani, Winson Han, Eric Kolve, Ali Farhadi, Aniruddha
Kembhavi, Roozbeh Mottaghi
- Abstract要約: ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
- 参考スコア(独自算出の注目度): 55.485985317538194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massive datasets and high-capacity models have driven many recent
advancements in computer vision and natural language understanding. This work
presents a platform to enable similar success stories in Embodied AI. We
propose ProcTHOR, a framework for procedural generation of Embodied AI
environments. ProcTHOR enables us to sample arbitrarily large datasets of
diverse, interactive, customizable, and performant virtual environments to
train and evaluate embodied agents across navigation, interaction, and
manipulation tasks. We demonstrate the power and potential of ProcTHOR via a
sample of 10,000 generated houses and a simple neural model. Models trained
using only RGB images on ProcTHOR, with no explicit mapping and no human task
supervision produce state-of-the-art results across 6 embodied AI benchmarks
for navigation, rearrangement, and arm manipulation, including the presently
running Habitat 2022, AI2-THOR Rearrangement 2022, and RoboTHOR challenges. We
also demonstrate strong 0-shot results on these benchmarks, via pre-training on
ProcTHOR with no fine-tuning on the downstream benchmark, often beating
previous state-of-the-art systems that access the downstream training data.
- Abstract(参考訳): 膨大なデータセットと高容量モデルにより、コンピュータビジョンと自然言語理解の進歩が進んでいる。
この作業は、Embodied AIでも同様の成功ストーリーを可能にするプラットフォームを提供する。
本稿では,Embodied AI環境の手続き的生成のためのフレームワークであるProcTHORを提案する。
ProcTHORは、多様でインタラクティブでカスタマイズ可能な、パフォーマンスの高い仮想環境の任意のサイズのデータセットをサンプリングし、ナビゲーション、インタラクション、操作タスクをまたいだエンボディエージェントのトレーニングと評価を可能にします。
我々は1万世帯のサンプルと単純なニューラルモデルを用いて,procthorのパワーとポテンシャルを実証する。
ProcTHOR上のRGBイメージのみを使用してトレーニングされたモデルは、明示的なマッピングがなく、人間のタスクの監督もない。現在実行中のHabitat 2022、AI2-THOR Rearrangement 2022、RoboTHORの課題を含む、ナビゲーション、再配置、腕操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を生成する。
また、これらのベンチマークでは、下流ベンチマークを微調整することなく、ProcTHORで事前トレーニングを行い、ダウンストリームトレーニングデータにアクセスする従来の最先端システムに勝っていることを示す。
関連論文リスト
- RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning
via Generative Simulation [64.51563634951394]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - DamWorld: Progressive Reasoning with World Models for Robotic
Manipulation [53.468924348313664]
本論文では,SeaWaveと呼ばれる総合的かつ体系的なロボット操作ベンチマークを構築した。
マルチモーダル環境で、組み込みAIエージェントのための標準テストプラットフォームを提供する。
本研究では,DamWorldと呼ばれるクロスモーダルロボット操作に適した新しい世界モデルを提案する。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - AC-VRNN: Attentive Conditional-VRNN for Multi-Future Trajectory
Prediction [30.61190086847564]
条件付き変動リカレントニューラルネットワーク(C-VRNN)に基づくマルチフューチャ軌道予測のための生成アーキテクチャを提案する。
ヒューマンインタラクションは、繰り返し推定のオンライン注意深い隠れ状態改善を可能にするグラフベースのアテンションメカニズムでモデル化される。
論文 参考訳(メタデータ) (2020-05-17T17:21:23Z) - RoboTHOR: An Open Simulation-to-Real Embodied AI Platform [56.50243383294621]
インタラクティブで具体化された視覚AIの研究を民主化するためにRoboTHORを導入する。
シミュレーションで訓練されたモデルの性能は,シミュレーションと慎重に構築された物理アナログの両方で試験される場合,大きな差があることが示される。
論文 参考訳(メタデータ) (2020-04-14T20:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。