論文の概要: Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation
- arxiv url: http://arxiv.org/abs/2309.03661v3
- Date: Thu, 14 Dec 2023 10:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:21:53.949693
- Title: Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation
- Title(参考訳): 視覚および言語ナビゲーションのためのプロンプトベースコンテキストおよびドメインアウェア事前学習
- Authors: Ting Liu, Yue Hu, Wansen Wu, Youkai Wang, Kai Xu, Quanjun Yin
- Abstract要約: 本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
- 参考スコア(独自算出の注目度): 19.793659852435486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained visual-language models have extensive world knowledge and are
widely used in visual and language navigation (VLN). However, they are not
sensitive to indoor scenarios for VLN tasks. Another challenge for VLN is how
the agent understands the contextual relations between actions on a path and
performs cross-modal alignment sequentially. In this paper, we propose a novel
Prompt-bAsed coNtext- and inDoor-Aware (PANDA) pretraining framework to address
these problems. It performs prompting in two stages. In the indoor-aware stage,
we apply an efficient tuning paradigm to learn deep visual prompts from an
indoor dataset, in order to augment pretrained models with inductive biases
towards indoor environments. This can enable more sample-efficient adaptation
for VLN agents. Furthermore, in the context-aware stage, we design a set of
hard context prompts to capture the sequence-level semantics in the
instruction. They enable further tuning of the pretrained models via
contrastive learning. Experimental results on both R2R and REVERIE show the
superiority of PANDA compared to existing state-of-the-art methods.
- Abstract(参考訳): 事前訓練された視覚言語モデルは広範な知識を持ち、視覚および言語ナビゲーション(vln)で広く使われている。
しかし、VLNタスクの屋内シナリオには敏感ではない。
VLNのもう1つの課題は、エージェントがパス上のアクション間のコンテキスト関係をどのように理解し、連続的にモード間のアライメントを実行するかである。
本稿では,これらの問題に対処するための新しい Prompt-bAsed coNtext と inDoor-Aware (PANDA) 事前学習フレームワークを提案する。
プロンプトは2段階で行われる。
室内認識の段階では,室内環境に対する帰納バイアスを伴う事前学習モデルの拡張のために,室内データセットから深い視覚プロンプトを学ぶための効率的なチューニングパラダイムを適用する。
これにより、VLN剤のより試料効率の良い適応が可能となる。
さらに、文脈認識段階では、命令中のシーケンスレベルの意味をキャプチャするためのハードコンテキストプロンプトのセットを設計する。
コントラスト学習を通じて事前訓練されたモデルのさらなるチューニングを可能にする。
R2RとREVERIEの両実験結果は,既存の最先端手法と比較してPANDAの優位性を示している。
関連論文リスト
- Continual Vision-and-Language Navigation [18.20829279972436]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令とビジュアルキューを使用して目的地にナビゲートする。
エージェントが絶えず学習し、変化する環境に適応するために、CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-22T09:15:36Z) - DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation [19.793659852435486]
VLNタスクのための新しいモデルに依存しないドメイン・アウェア・プロンプト・ラーニング(DAP)フレームワークを提案する。
DAPは、ドメイン内の画像意味論を抽出するためのソフトな視覚的プロンプトを学習するために、低コストのプロンプトチューニングパラダイムを適用している。
R2RとREVERIEの両方の実験結果は、既存の最先端手法と比較して、DAPの優位性を示している。
論文 参考訳(メタデータ) (2023-11-29T17:03:37Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for
Navigation Instruction Generation [70.76686546473994]
ナビゲーション命令生成のための新しい話者モデルtextscKefaを提案する。
提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現する。
論文 参考訳(メタデータ) (2023-07-25T09:39:59Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts [92.92047324641622]
視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-05-31T02:41:31Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。