論文の概要: Neighbor-view Enhanced Model for Vision and Language Navigation
- arxiv url: http://arxiv.org/abs/2107.07201v1
- Date: Thu, 15 Jul 2021 09:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-17 00:09:41.098672
- Title: Neighbor-view Enhanced Model for Vision and Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための近隣ビュー強化モデル
- Authors: Dong An, Yuankai Qi, Yan Huang, Qi Wu, Liang Wang, Tieniu Tan
- Abstract要約: 視覚と言語ナビゲーション(VLN)では、エージェントが自然言語の指示に従うことによって、ターゲットの場所へナビゲートする必要がある。
本研究では,隣接するビューから視覚的コンテキストを適応的に組み込むマルチモジュールNeighbor-View Enhanced Model (NvEM)を提案する。
- 参考スコア(独自算出の注目度): 78.90859474564787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision and Language Navigation (VLN) requires an agent to navigate to a
target location by following natural language instructions. Most of existing
works represent a navigation candidate by the feature of the corresponding
single view where the candidate lies in. However, an instruction may mention
landmarks out of the single view as references, which might lead to failures of
textual-visual matching of existing methods. In this work, we propose a
multi-module Neighbor-View Enhanced Model (NvEM) to adaptively incorporate
visual contexts from neighbor views for better textual-visual matching.
Specifically, our NvEM utilizes a subject module and a reference module to
collect contexts from neighbor views. The subject module fuses neighbor views
at a global level, and the reference module fuses neighbor objects at a local
level. Subjects and references are adaptively determined via attention
mechanisms. Our model also includes an action module to utilize the strong
orientation guidance (e.g., ``turn left'') in instructions. Each module
predicts navigation action separately and their weighted sum is used for
predicting the final action. Extensive experimental results demonstrate the
effectiveness of the proposed method on the R2R and R4R benchmarks against
several state-of-the-art navigators, and NvEM even beats some pre-training
ones. Our code is available at https://github.com/MarSaKi/NvEM.
- Abstract(参考訳): vision and language navigation (vln) は、エージェントが自然言語命令に従うことによってターゲットの場所へナビゲートする必要がある。
既存の作品のほとんどは、候補が属する単一のビューの特徴によってナビゲーション候補を表す。
しかし、命令は単一のビューのランドマークを参照として参照し、既存のメソッドのテキストと視覚のマッチングが失敗する可能性がある。
本研究では,隣接ビューからの視覚コンテキストを適応的に組み込んでテキストと視覚のマッチングを改善するマルチモジュールNvEMを提案する。
特に、nvemは、サブジェクトモジュールと参照モジュールを使用して、隣り合うビューからコンテキストを収集します。
対象モジュールはグローバルレベルで隣のビューをヒューズし、参照モジュールはローカルレベルで隣のオブジェクトをヒューズする。
対象と参照は注意機構によって適応的に決定される。
私たちのモデルは、命令の強い方向指示(例えば ``turn left''')を利用するアクションモジュールも含んでいます。
各モジュールは別々にナビゲーションアクションを予測し、重み付き和を最終アクションの予測に使用する。
大規模な実験結果から,提案手法がいくつかの最先端ナビゲータに対してR2RとR4Rのベンチマークに与える影響が示され,NvEMが事前学習した手法よりも優れていた。
私たちのコードはhttps://github.com/marsaki/nvemで利用可能です。
関連論文リスト
- LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation [124.07372905781696]
行動原子概念学習(Actical Atomic-Concept Learning, ACL)は、視覚的な観察を行動原子の概念にマッピングしてアライメントを促進する。
AACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立する。
論文 参考訳(メタデータ) (2023-02-13T03:08:05Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。