論文の概要: Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation
- arxiv url: http://arxiv.org/abs/2309.03661v2
- Date: Thu, 30 Nov 2023 11:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:11:16.088515
- Title: Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation
- Title(参考訳): 視覚および言語ナビゲーションのためのプロンプトベースコンテキストおよびドメインアウェア事前学習
- Authors: Ting Liu, Wansen Wu, Yue Hu, Youkai Wang, Kai Xu, Quanjun Yin
- Abstract要約: 本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and Domain-Aware (PANDA) プレトレーニングフレームワークを提案する。
ドメイン認識の段階では、低コストのプロンプトチューニングパラダイムを適用して、ドメイン内のデータセットからソフトな視覚的プロンプトを学習する。
文脈認識の段階では、シーケンスレベルのセマンティクスをキャプチャし、文脈外知識と文脈的知識の両方を具現化するハードコンテキストプロンプトを設計する。
- 参考スコア(独自算出の注目度): 19.79365985243549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With strong representation capabilities, pretrained vision-language models
are widely used in vision and language navigation (VLN). However, most of them
are trained on web-crawled general-purpose datasets, which incurs a
considerable domain gap when used for VLN tasks. Another challenge for VLN is
how the agent understands the contextual relations between actions on a
trajectory and performs cross-modal alignment sequentially. In this paper, we
propose a novel Prompt-bAsed coNtext- and Domain-Aware (PANDA) pretraining
framework to address these problems. It performs prompting in two stages. In
the domain-aware stage, we apply a low-cost prompt tuning paradigm to learn
soft visual prompts from an in-domain dataset for equipping the pretrained
models with object-level and scene-level cross-modal alignment in VLN tasks.
Furthermore, in the context-aware stage, we design a set of hard context
prompts to capture the sequence-level semantics and instill both out-of-context
and contextual knowledge in the instruction into cross-modal representations.
They enable further tuning of the pretrained models via contrastive learning.
Experimental results on both R2R and REVERIE show the superiority of PANDA
compared to previous state-of-the-art methods.
- Abstract(参考訳): 強力な表現能力により、事前訓練された視覚言語モデルは視覚と言語ナビゲーション(VLN)で広く使われている。
しかし、そのほとんどはWebcrawledの汎用データセットでトレーニングされており、VLNタスクで使用する場合、かなりのドメインギャップが生じる。
VLNのもう1つの課題は、エージェントが軌道上のアクション間の文脈的関係をどのように理解し、連続的にモード間のアライメントを実行するかである。
本稿では,これらの問題に対処するための新しいPrompt-bAsed coNtext- and Domain-Aware(PANDA)事前学習フレームワークを提案する。
プロンプトは2段階で行われる。
ドメイン認識の段階では、VLNタスクにおけるオブジェクトレベルおよびシーンレベルのクロスモーダルアライメントを備えた事前学習モデルのドメイン内データセットからソフトな視覚的プロンプトを学習するために、低コストなプロンプトチューニングパラダイムを適用する。
さらに,コンテキスト認識の段階では,シーケンスレベルのセマンティクスを捉えるための一連のハードコンテキストプロンプトを設計し,インストラクション内のコンテキスト外知識とコンテキスト外知識の両方をクロスモーダル表現に変換する。
コントラスト学習を通じて事前訓練されたモデルのさらなるチューニングを可能にする。
R2RとREVERIEの両方の実験結果から,従来の最先端手法に比べてPANDAの方が優れていた。
関連論文リスト
- Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation [19.793659852435486]
VLNタスクのための新しいモデルに依存しないドメイン・アウェア・プロンプト・ラーニング(DAP)フレームワークを提案する。
DAPは、ドメイン内の画像意味論を抽出するためのソフトな視覚的プロンプトを学習するために、低コストのプロンプトチューニングパラダイムを適用している。
R2RとREVERIEの両方の実験結果は、既存の最先端手法と比較して、DAPの優位性を示している。
論文 参考訳(メタデータ) (2023-11-29T17:03:37Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for
Navigation Instruction Generation [70.76686546473994]
ナビゲーション命令生成のための新しい話者モデルtextscKefaを提案する。
提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現する。
論文 参考訳(メタデータ) (2023-07-25T09:39:59Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts [92.92047324641622]
視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-05-31T02:41:31Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。