Fugu-MT 論文翻訳(概要): Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion

論文の概要: Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion

arxiv url: http://arxiv.org/abs/2108.04927v1
Date: Tue, 10 Aug 2021 21:24:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-12 13:45:13.717082
Title: Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion
Title（参考訳）: Embodied BERT:Embodied, Language-Guided Visual Task Completionのためのトランスフォーマモデル
Authors: Alessandro Suglia, Qiaozi Gao, Jesse Thomason, Govind Thattai, Gaurav Sukhatme
Abstract要約: Embodied BERT (EmBERT) は,言語条件のタスク完了のために,長時間の時間的水平線を横断する高次元マルチモーダル入力に対応可能なトランスフォーマーモデルである。我々はALFREDベンチマークで競合性能を達成し、EmBERTはALFREDの長い水平高密度マルチモーダルヒストリーをうまく扱える最初のトランスフォーマーベースモデルである。
参考スコア（独自算出の注目度）: 69.04196388421649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language-guided robots performing home and office tasks must navigate in and interact with the world. Grounding language instructions against visual observations and actions to take in an environment is an open challenge. We present Embodied BERT (EmBERT), a transformer-based model which can attend to high-dimensional, multi-modal inputs across long temporal horizons for language-conditioned task completion. Additionally, we bridge the gap between successful object-centric navigation models used for non-interactive agents and the language-guided visual task completion benchmark, ALFRED, by introducing object navigation targets for EmBERT training. We achieve competitive performance on the ALFRED benchmark, and EmBERT marks the first transformer-based model to successfully handle the long-horizon, dense, multi-modal histories of ALFRED, and the first ALFRED model to utilize object-centric navigation targets.
Abstract（参考訳）: 家庭やオフィスで仕事をする言語誘導ロボットは、世界をナビゲートし、対話しなければならない。視覚的な観察や環境における行動に対する言語指示の接地は、オープンな課題である。 Embodied BERT (EmBERT) は,言語条件のタスク完了のために,長時間の時間的水平線を越えた高次元マルチモーダル入力に対応可能なトランスフォーマーモデルである。さらに,非対話エージェントに使用されるオブジェクト中心ナビゲーションモデルと言語誘導視覚タスク補完ベンチマークであるALFREDとのギャップを,EmBERTトレーニングのためのオブジェクトナビゲーションターゲットを導入することで埋める。我々はALFREDベンチマークで競合性能を達成し、EmBERTはALFREDの長い水平・密度のマルチモーダル履歴を扱う最初のトランスフォーマーベースモデルであり、オブジェクト中心のナビゲーションターゲットを利用する最初のALFREDモデルである。

関連論文リスト

OpenNav: Open-World Navigation with Multimodal Large Language Models [8.41361699991122]
大型言語モデル(LLM)は強力な常識推論能力を示しており、ロボットナビゲーションと計画タスクを約束している。ロボットが複雑な言語命令を解釈して分解し、最終的には一連の軌跡を合成して、多様なナビゲーションタスクを完備化することを目指している。室内および屋外の両方のシーンにおいて,ハスキーロボットを用いたシステムの有効性を検証し,実世界のロバスト性と適用性を示す。
論文参考訳（メタデータ） (2025-07-24T02:05:28Z)
LOVON: Legged Open-Vocabulary Object Navigator [9.600429521100041]
階層型タスク計画のための大規模言語モデルとオープン語彙視覚検出モデルを統合する新しいフレームワークを提案する。視覚的ジッタリング、ブラインドゾーン、一時的な目標損失といった現実的な課題に対処するために、私たちは専用のソリューションを設計しました。また,自律ナビゲーション,タスク適応,堅牢なタスク完了におけるLOVONの機能を保証するロボットのための機能実行ロジックも開発した。
論文参考訳（メタデータ） (2025-07-09T11:02:46Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。 GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文参考訳（メタデータ） (2024-04-09T20:40:00Z)
Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation [17.279875204729553]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。 ZIPONでは、ユーザーとの会話をしながら、ロボットがパーソナライズされた目標オブジェクトにナビゲートする必要がある。我々は、知覚、ナビゲーション、コミュニケーションのための異なるモジュールを操作するためのシーケンシャルな決定を行うために、Open-woRld Interactive persOnalized Navigation (ORION)を提案する。
論文参考訳（メタデータ） (2023-10-12T01:17:56Z)
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-02-23T19:06:53Z)
Zero Experience Required: Plug & Play Modular Transfer Learning for Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文参考訳（メタデータ） (2022-02-05T00:07:21Z)
Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文参考訳（メタデータ） (2021-01-09T21:49:41Z)
ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文参考訳（メタデータ） (2020-11-15T23:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。