論文の概要: ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts
- arxiv url: http://arxiv.org/abs/2205.15509v1
- Date: Tue, 31 May 2022 02:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:04:14.042191
- Title: ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts
- Title(参考訳): adapt: モダリティアラインアクションプロンプトによる視覚言語ナビゲーション
- Authors: Bingqian Lin, Yi Zhu, Zicong Chen, Xiwen Liang, Jianzhuang Liu,
Xiaodan Liang
- Abstract要約: 視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
- 参考スコア(独自算出の注目度): 92.92047324641622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) is a challenging task that requires an
embodied agent to perform action-level modality alignment, i.e., make
instruction-asked actions sequentially in complex visual environments. Most
existing VLN agents learn the instruction-path data directly and cannot
sufficiently explore action-level alignment knowledge inside the multi-modal
inputs. In this paper, we propose modAlity-aligneD Action PrompTs (ADAPT),
which provides the VLN agent with action prompts to enable the explicit
learning of action-level modality alignment to pursue successful navigation.
Specifically, an action prompt is defined as a modality-aligned pair of an
image sub-prompt and a text sub-prompt, where the former is a single-view
observation and the latter is a phrase like ''walk past the chair''. When
starting navigation, the instruction-related action prompt set is retrieved
from a pre-built action prompt base and passed through a prompt encoder to
obtain the prompt feature. Then the prompt feature is concatenated with the
original instruction feature and fed to a multi-layer transformer for action
prediction. To collect high-quality action prompts into the prompt base, we use
the Contrastive Language-Image Pretraining (CLIP) model which has powerful
cross-modality alignment ability. A modality alignment loss and a sequential
consistency loss are further introduced to enhance the alignment of the action
prompt and enforce the agent to focus on the related prompt sequentially.
Experimental results on both R2R and RxR show the superiority of ADAPT over
state-of-the-art methods.
- Abstract(参考訳): VLN(Vision-Language Navigation)は、複雑な視覚環境において、インボディードエージェントがアクションレベルのモダリティアライメントを実行することを必要とする、困難なタスクである。
既存のVLNエージェントは命令パスデータを直接学習し、マルチモーダル入力内のアクションレベルのアライメント知識を十分に探索することができない。
本稿では、vlnエージェントにアクションプロンプトを提供し、アクションレベルのモダリティアライメントの明示的な学習を可能にし、ナビゲーションを成功させるモダリティ調整アクションプロンプト(adapt)を提案する。
具体的には、アクションプロンプトを、画像サブプロンプトとテキストサブプロンプトとのモダリティ整合対として定義し、前者は単視点観察であり、後者は「椅子を通り抜ける」ようなフレーズとする。
ナビゲーションを開始すると、予め構築したアクションプロンプトベースから命令関連アクションプロンプトセットを検索し、プロンプトエンコーダを通過してプロンプト特徴を得る。
次に、プロンプト特徴を元の命令特徴と連結し、動作予測のために多層トランスに供給する。
高品質なアクションプロンプトをプロンプトベースに集めるために, 強力なモダリティアライメント能力を持つContrastive Language-Image Pretraining (CLIP) モデルを用いる。
さらに、アクションプロンプトのアライメントを強化し、エージェントが関連するプロンプトに順次集中するよう強制するために、モダリティアライメントロスとシーケンシャル一貫性損失がさらに導入される。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
関連論文リスト
- APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning [15.844451999840588]
token-wise Adaptive for Multi-modal Prompt Learning (APLe) を提案する。
APLeは、V-Lモデルを採用する上で絶対的に有利な、プロンプト長の実験において、堅牢性と好ましい性能を示す。
論文 参考訳(メタデータ) (2024-01-12T04:54:01Z) - Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - PLAR: Prompt Learning for Action Recognition [56.57236976757388]
我々は,行動認識のためのプロンプト学習(PLAR)という新しい一般学習手法を提案する。
提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることで,アクションラベルを予測できるように設計されている。
我々は,空中マルチエージェントデータセットOkutamamの3.110-7.2%の精度向上と地上カメラ単一エージェントデータセットSomesome V2の1.0-3.6%の改善を観察した。
論文 参考訳(メタデータ) (2023-05-21T11:51:09Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - MLANet: Multi-Level Attention Network with Sub-instruction for
Continuous Vision-and-Language Navigation [6.478089983471946]
Vision-and-Language Navigation (VLN) は、言語と視覚の監督を通じてのみ見えない環境でナビゲートするためのインテリジェントエージェントを開発することを目的としている。
最近提案された連続的な設定(連続VLN)では、エージェントは自由な3D空間で動作しなければなりません。
連続VLNの性能向上のために、我々はマルチレベル命令理解手順を設計し、新しいモデルであるマルチレベル注意ネットワーク(MLANet)を提案する。
論文 参考訳(メタデータ) (2023-03-02T16:26:14Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。