論文の概要: Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information
- arxiv url: http://arxiv.org/abs/2104.09580v1
- Date: Mon, 19 Apr 2021 19:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:56:20.235487
- Title: Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information
- Title(参考訳): 構文情報を用いた視覚言語ナビゲーションにおけるクロスモーダルアライメントの改善
- Authors: Jialu Li, Hao Tan, Mohit Bansal
- Abstract要約: ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
- 参考スコア(独自算出の注目度): 83.62098382773266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language navigation is the task that requires an agent to navigate
through a 3D environment based on natural language instructions. One key
challenge in this task is to ground instructions with the current visual
information that the agent perceives. Most of the existing work employs soft
attention over individual words to locate the instruction required for the next
action. However, different words have different functions in a sentence (e.g.,
modifiers convey attributes, verbs convey actions). Syntax information like
dependencies and phrase structures can aid the agent to locate important parts
of the instruction. Hence, in this paper, we propose a navigation agent that
utilizes syntax information derived from a dependency tree to enhance alignment
between the instruction and the current visual scenes. Empirically, our agent
outperforms the baseline model that does not use syntax information on the
Room-to-Room dataset, especially in the unseen environment. Besides, our agent
achieves the new state-of-the-art on Room-Across-Room dataset, which contains
instructions in 3 languages (English, Hindi, and Telugu). We also show that our
agent is better at aligning instructions with the current visual information
via qualitative visualizations. Code and models:
https://github.com/jialuli-luka/SyntaxVLN
- Abstract(参考訳): 視覚言語ナビゲーションは、エージェントが自然言語命令に基づいて3D環境をナビゲートする必要があるタスクである。
このタスクにおける1つの重要な課題は、エージェントが知覚する現在の視覚情報で指示を接地することである。
既存の作業の多くは、次の行動に必要な指示を見つけるために個々の単語に対してソフトな注意を払っている。
しかし、異なる単語は文の中で異なる機能を持つ(例えば修飾語は属性を、動詞はアクションを伝達する)。
依存関係やフレーズ構造といった構文情報は、エージェントが命令の重要な部分を見つけるのに役立つ。
そこで本稿では,依存性木から派生した構文情報を利用して,命令と現在の視覚シーンとの整合性を高めるナビゲーションエージェントを提案する。
経験的に、我々のエージェントは、特に目に見えない環境で、Room-to-Roomデータセットの構文情報を使用しないベースラインモデルよりも優れています。
さらに,我々のエージェントは3言語(英語,ヒンディー語,テルグ語)の命令を含むroom-across-roomデータセットの最先端版を実現している。
また,我々のエージェントは,質的可視化による指示と現在の視覚情報との整合が良好であることを示す。
コードとモデル: https://github.com/jialuli-luka/syntaxvln
関連論文リスト
- NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - VLN-Trans: Translator for the Vision and Language Navigation Agent [23.84492755669486]
ナビゲーションエージェントのためのトランスレータモジュールを設計し、元の命令を簡単に追従できるサブ命令表現に変換する。
我々は、新しい合成サブインストラクションデータセットを作成し、トランスレータとナビゲーションエージェントを訓練するための特定のタスクを設計する。
本研究では,Room2Room(R2R),Room4room(R4R),Room2Room Last(R2R-Last)データセットについて検討した。
論文 参考訳(メタデータ) (2023-02-18T04:19:51Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。