論文の概要: Embodied BERT: A Transformer Model for Embodied, Language-guided Visual
Task Completion
- arxiv url: http://arxiv.org/abs/2108.04927v1
- Date: Tue, 10 Aug 2021 21:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:45:13.717082
- Title: Embodied BERT: A Transformer Model for Embodied, Language-guided Visual
Task Completion
- Title(参考訳): Embodied BERT:Embodied, Language-Guided Visual Task Completionのためのトランスフォーマモデル
- Authors: Alessandro Suglia, Qiaozi Gao, Jesse Thomason, Govind Thattai, Gaurav
Sukhatme
- Abstract要約: Embodied BERT (EmBERT) は,言語条件のタスク完了のために,長時間の時間的水平線を横断する高次元マルチモーダル入力に対応可能なトランスフォーマーモデルである。
我々はALFREDベンチマークで競合性能を達成し、EmBERTはALFREDの長い水平高密度マルチモーダルヒストリーをうまく扱える最初のトランスフォーマーベースモデルである。
- 参考スコア(独自算出の注目度): 69.04196388421649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided robots performing home and office tasks must navigate in and
interact with the world. Grounding language instructions against visual
observations and actions to take in an environment is an open challenge. We
present Embodied BERT (EmBERT), a transformer-based model which can attend to
high-dimensional, multi-modal inputs across long temporal horizons for
language-conditioned task completion. Additionally, we bridge the gap between
successful object-centric navigation models used for non-interactive agents and
the language-guided visual task completion benchmark, ALFRED, by introducing
object navigation targets for EmBERT training. We achieve competitive
performance on the ALFRED benchmark, and EmBERT marks the first
transformer-based model to successfully handle the long-horizon, dense,
multi-modal histories of ALFRED, and the first ALFRED model to utilize
object-centric navigation targets.
- Abstract(参考訳): 家庭やオフィスで仕事をする言語誘導ロボットは、世界をナビゲートし、対話しなければならない。
視覚的な観察や環境における行動に対する言語指示の接地は、オープンな課題である。
Embodied BERT (EmBERT) は,言語条件のタスク完了のために,長時間の時間的水平線を越えた高次元マルチモーダル入力に対応可能なトランスフォーマーモデルである。
さらに,非対話エージェントに使用されるオブジェクト中心ナビゲーションモデルと言語誘導視覚タスク補完ベンチマークであるALFREDとのギャップを,EmBERTトレーニングのためのオブジェクトナビゲーションターゲットを導入することで埋める。
我々はALFREDベンチマークで競合性能を達成し、EmBERTはALFREDの長い水平・密度のマルチモーダル履歴を扱う最初のトランスフォーマーベースモデルであり、オブジェクト中心のナビゲーションターゲットを利用する最初のALFREDモデルである。
関連論文リスト
- DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation [17.279875204729553]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。
ZIPONでは、ユーザーとの会話をしながら、ロボットがパーソナライズされた目標オブジェクトにナビゲートする必要がある。
我々は、知覚、ナビゲーション、コミュニケーションのための異なるモジュールを操作するためのシーケンシャルな決定を行うために、Open-woRld Interactive persOnalized Navigation (ORION)を提案する。
論文 参考訳(メタデータ) (2023-10-12T01:17:56Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。