論文の概要: Embodied BERT: A Transformer Model for Embodied, Language-guided Visual
Task Completion
- arxiv url: http://arxiv.org/abs/2108.04927v1
- Date: Tue, 10 Aug 2021 21:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:45:13.717082
- Title: Embodied BERT: A Transformer Model for Embodied, Language-guided Visual
Task Completion
- Title(参考訳): Embodied BERT:Embodied, Language-Guided Visual Task Completionのためのトランスフォーマモデル
- Authors: Alessandro Suglia, Qiaozi Gao, Jesse Thomason, Govind Thattai, Gaurav
Sukhatme
- Abstract要約: Embodied BERT (EmBERT) は,言語条件のタスク完了のために,長時間の時間的水平線を横断する高次元マルチモーダル入力に対応可能なトランスフォーマーモデルである。
我々はALFREDベンチマークで競合性能を達成し、EmBERTはALFREDの長い水平高密度マルチモーダルヒストリーをうまく扱える最初のトランスフォーマーベースモデルである。
- 参考スコア(独自算出の注目度): 69.04196388421649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided robots performing home and office tasks must navigate in and
interact with the world. Grounding language instructions against visual
observations and actions to take in an environment is an open challenge. We
present Embodied BERT (EmBERT), a transformer-based model which can attend to
high-dimensional, multi-modal inputs across long temporal horizons for
language-conditioned task completion. Additionally, we bridge the gap between
successful object-centric navigation models used for non-interactive agents and
the language-guided visual task completion benchmark, ALFRED, by introducing
object navigation targets for EmBERT training. We achieve competitive
performance on the ALFRED benchmark, and EmBERT marks the first
transformer-based model to successfully handle the long-horizon, dense,
multi-modal histories of ALFRED, and the first ALFRED model to utilize
object-centric navigation targets.
- Abstract(参考訳): 家庭やオフィスで仕事をする言語誘導ロボットは、世界をナビゲートし、対話しなければならない。
視覚的な観察や環境における行動に対する言語指示の接地は、オープンな課題である。
Embodied BERT (EmBERT) は,言語条件のタスク完了のために,長時間の時間的水平線を越えた高次元マルチモーダル入力に対応可能なトランスフォーマーモデルである。
さらに,非対話エージェントに使用されるオブジェクト中心ナビゲーションモデルと言語誘導視覚タスク補完ベンチマークであるALFREDとのギャップを,EmBERTトレーニングのためのオブジェクトナビゲーションターゲットを導入することで埋める。
我々はALFREDベンチマークで競合性能を達成し、EmBERTはALFREDの長い水平・密度のマルチモーダル履歴を扱う最初のトランスフォーマーベースモデルであり、オブジェクト中心のナビゲーションターゲットを利用する最初のALFREDモデルである。
関連論文リスト
- LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。