Fugu-MT 論文翻訳(概要): ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

論文の概要: ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

arxiv url: http://arxiv.org/abs/2206.06994v1
Date: Tue, 14 Jun 2022 17:09:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-15 14:10:38.691915
Title: ProcTHOR: Large-Scale Embodied AI Using Procedural Generation
Title（参考訳）: ProcTHOR: 手続き生成を用いた大規模体操AI
Authors: Matt Deitke, Eli VanderBilt, Alvaro Herrasti, Luca Weihs, Jordi Salvador, Kiana Ehsani, Winson Han, Eric Kolve, Ali Farhadi, Aniruddha Kembhavi, Roozbeh Mottaghi
Abstract要約: ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
参考スコア（独自算出の注目度）: 55.485985317538194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Massive datasets and high-capacity models have driven many recent advancements in computer vision and natural language understanding. This work presents a platform to enable similar success stories in Embodied AI. We propose ProcTHOR, a framework for procedural generation of Embodied AI environments. ProcTHOR enables us to sample arbitrarily large datasets of diverse, interactive, customizable, and performant virtual environments to train and evaluate embodied agents across navigation, interaction, and manipulation tasks. We demonstrate the power and potential of ProcTHOR via a sample of 10,000 generated houses and a simple neural model. Models trained using only RGB images on ProcTHOR, with no explicit mapping and no human task supervision produce state-of-the-art results across 6 embodied AI benchmarks for navigation, rearrangement, and arm manipulation, including the presently running Habitat 2022, AI2-THOR Rearrangement 2022, and RoboTHOR challenges. We also demonstrate strong 0-shot results on these benchmarks, via pre-training on ProcTHOR with no fine-tuning on the downstream benchmark, often beating previous state-of-the-art systems that access the downstream training data.
Abstract（参考訳）: 膨大なデータセットと高容量モデルにより、コンピュータビジョンと自然言語理解の進歩が進んでいる。この作業は、Embodied AIでも同様の成功ストーリーを可能にするプラットフォームを提供する。本稿では,Embodied AI環境の手続き的生成のためのフレームワークであるProcTHORを提案する。 ProcTHORは、多様でインタラクティブでカスタマイズ可能な、パフォーマンスの高い仮想環境の任意のサイズのデータセットをサンプリングし、ナビゲーション、インタラクション、操作タスクをまたいだエンボディエージェントのトレーニングと評価を可能にします。我々は1万世帯のサンプルと単純なニューラルモデルを用いて,procthorのパワーとポテンシャルを実証する。 ProcTHOR上のRGBイメージのみを使用してトレーニングされたモデルは、明示的なマッピングがなく、人間のタスクの監督もない。現在実行中のHabitat 2022、AI2-THOR Rearrangement 2022、RoboTHORの課題を含む、ナビゲーション、再配置、腕操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を生成する。また、これらのベンチマークでは、下流ベンチマークを微調整することなく、ProcTHORで事前トレーニングを行い、ダウンストリームトレーニングデータにアクセスする従来の最先端システムに勝っていることを示す。

関連論文リスト

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文参考訳（メタデータ） (2025-05-13T13:20:46Z)
In-Simulation Testing of Deep Learning Vision Models in Autonomous Robotic Manipulators [11.389756788049944]
自律型ロボットマニピュレータのテストは、ビジョンとコントロールコンポーネント間の複雑なソフトウェアインタラクションのために難しい。現代のロボットマニピュレータの重要な要素は、ディープラーニングに基づく物体検出モデルである。本稿では,写真リアリスティックなNVIDIA Isaac Simシミュレータと進化探索を統合し,重要なシナリオを識別するMARTENSフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-25T03:10:42Z)
Navigating the Human Maze: Real-Time Robot Pathfinding with Generative Imitation Learning [0.0]
目標条件付き自己回帰モデルを導入し,個人間の複雑な相互作用を捉える。このモデルは、潜在的なロボット軌道サンプルを処理し、周囲の個人の反応を予測する。
論文参考訳（メタデータ） (2024-08-07T14:32:41Z)
GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。 GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。 GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文参考訳（メタデータ） (2024-07-15T17:40:46Z)
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文参考訳（メタデータ） (2024-06-17T17:55:29Z)
Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。実験により,ベイズモデルに基づくRL手法の利点が示された。
論文参考訳（メタデータ） (2024-04-02T11:44:37Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
PACT: Perception-Action Causal Transformer for Autoregressive Robotics Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2022-09-22T16:20:17Z)
Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文参考訳（メタデータ） (2021-03-17T15:24:02Z)
Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。 i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文参考訳（メタデータ） (2020-10-11T01:40:03Z)
RoboTHOR: An Open Simulation-to-Real Embodied AI Platform [56.50243383294621]
インタラクティブで具体化された視覚AIの研究を民主化するためにRoboTHORを導入する。シミュレーションで訓練されたモデルの性能は,シミュレーションと慎重に構築された物理アナログの両方で試験される場合,大きな差があることが示される。
論文参考訳（メタデータ） (2020-04-14T20:52:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。