論文の概要: ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts
- arxiv url: http://arxiv.org/abs/2205.15509v1
- Date: Tue, 31 May 2022 02:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:04:14.042191
- Title: ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts
- Title(参考訳): adapt: モダリティアラインアクションプロンプトによる視覚言語ナビゲーション
- Authors: Bingqian Lin, Yi Zhu, Zicong Chen, Xiwen Liang, Jianzhuang Liu,
Xiaodan Liang
- Abstract要約: 視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
- 参考スコア(独自算出の注目度): 92.92047324641622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) is a challenging task that requires an
embodied agent to perform action-level modality alignment, i.e., make
instruction-asked actions sequentially in complex visual environments. Most
existing VLN agents learn the instruction-path data directly and cannot
sufficiently explore action-level alignment knowledge inside the multi-modal
inputs. In this paper, we propose modAlity-aligneD Action PrompTs (ADAPT),
which provides the VLN agent with action prompts to enable the explicit
learning of action-level modality alignment to pursue successful navigation.
Specifically, an action prompt is defined as a modality-aligned pair of an
image sub-prompt and a text sub-prompt, where the former is a single-view
observation and the latter is a phrase like ''walk past the chair''. When
starting navigation, the instruction-related action prompt set is retrieved
from a pre-built action prompt base and passed through a prompt encoder to
obtain the prompt feature. Then the prompt feature is concatenated with the
original instruction feature and fed to a multi-layer transformer for action
prediction. To collect high-quality action prompts into the prompt base, we use
the Contrastive Language-Image Pretraining (CLIP) model which has powerful
cross-modality alignment ability. A modality alignment loss and a sequential
consistency loss are further introduced to enhance the alignment of the action
prompt and enforce the agent to focus on the related prompt sequentially.
Experimental results on both R2R and RxR show the superiority of ADAPT over
state-of-the-art methods.
- Abstract(参考訳): VLN(Vision-Language Navigation)は、複雑な視覚環境において、インボディードエージェントがアクションレベルのモダリティアライメントを実行することを必要とする、困難なタスクである。
既存のVLNエージェントは命令パスデータを直接学習し、マルチモーダル入力内のアクションレベルのアライメント知識を十分に探索することができない。
本稿では、vlnエージェントにアクションプロンプトを提供し、アクションレベルのモダリティアライメントの明示的な学習を可能にし、ナビゲーションを成功させるモダリティ調整アクションプロンプト(adapt)を提案する。
具体的には、アクションプロンプトを、画像サブプロンプトとテキストサブプロンプトとのモダリティ整合対として定義し、前者は単視点観察であり、後者は「椅子を通り抜ける」ようなフレーズとする。
ナビゲーションを開始すると、予め構築したアクションプロンプトベースから命令関連アクションプロンプトセットを検索し、プロンプトエンコーダを通過してプロンプト特徴を得る。
次に、プロンプト特徴を元の命令特徴と連結し、動作予測のために多層トランスに供給する。
高品質なアクションプロンプトをプロンプトベースに集めるために, 強力なモダリティアライメント能力を持つContrastive Language-Image Pretraining (CLIP) モデルを用いる。
さらに、アクションプロンプトのアライメントを強化し、エージェントが関連するプロンプトに順次集中するよう強制するために、モダリティアライメントロスとシーケンシャル一貫性損失がさらに導入される。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
関連論文リスト
- DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - I2EDL: Interactive Instruction Error Detection and Localization [65.25839671641218]
連続環境(IVLN-CE)における対話型VLNの新たな課題を提案する。
これにより、VLN-CEナビゲーション中にエージェントがユーザと対話し、命令エラーに関する疑念を検証できる。
我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。
論文 参考訳(メタデータ) (2024-06-07T16:52:57Z) - Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts [37.20272055902246]
Vision-and-Language Navigation with Multi-Modal Prompts (VLN-MP) は、自然言語と画像の両方を命令に統合することにより、従来のVLNを増強する新しいタスクである。
VLN-MPは、テキストのみのプロンプトを効果的に扱うことで後方互換性を維持するだけでなく、異なる量と視覚的プロンプトの関連性を一貫して示す。
論文 参考訳(メタデータ) (2024-06-04T11:06:13Z) - APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning [15.844451999840588]
token-wise Adaptive for Multi-modal Prompt Learning (APLe) を提案する。
APLeは、V-Lモデルを採用する上で絶対的に有利な、プロンプト長の実験において、堅牢性と好ましい性能を示す。
論文 参考訳(メタデータ) (2024-01-12T04:54:01Z) - Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - MLANet: Multi-Level Attention Network with Sub-instruction for
Continuous Vision-and-Language Navigation [6.478089983471946]
Vision-and-Language Navigation (VLN) は、言語と視覚の監督を通じてのみ見えない環境でナビゲートするためのインテリジェントエージェントを開発することを目的としている。
最近提案された連続的な設定(連続VLN)では、エージェントは自由な3D空間で動作しなければなりません。
連続VLNの性能向上のために、我々はマルチレベル命令理解手順を設計し、新しいモデルであるマルチレベル注意ネットワーク(MLANet)を提案する。
論文 参考訳(メタデータ) (2023-03-02T16:26:14Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。