論文の概要: DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2404.01994v1
- Date: Tue, 2 Apr 2024 14:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:59:17.631650
- Title: DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning
- Title(参考訳): DELAN:クロスモーダルコントラスト学習による視覚・言語ナビゲーションのためのデュアルレベルアライメント
- Authors: Mengfei Du, Binhao Wu, Jiwen Zhang, Zhihao Fan, Zejun Li, Ruipu Luo, Xuanjing Huang, Zhongyu Wei,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、見えない環境でナビゲートする必要がある。
タスク完了のためには、エージェントは、指示、観察、ナビゲーション履歴を含む様々なナビゲーションモダリティを調整および統合する必要がある。
- 参考スコア(独自算出の注目度): 40.87681228125296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language navigation (VLN) requires an agent to navigate in unseen environment by following natural language instruction. For task completion, the agent needs to align and integrate various navigation modalities, including instruction, observation and navigation history. Existing works primarily concentrate on cross-modal attention at the fusion stage to achieve this objective. Nevertheless, modality features generated by disparate uni-encoders reside in their own spaces, leading to a decline in the quality of cross-modal fusion and decision. To address this problem, we propose a Dual-levEL AligNment (DELAN) framework by cross-modal contrastive learning. This framework is designed to align various navigation-related modalities before fusion, thereby enhancing cross-modal interaction and action decision-making. Specifically, we divide the pre-fusion alignment into dual levels: instruction-history level and landmark-observation level according to their semantic correlations. We also reconstruct a dual-level instruction for adaptation to the dual-level alignment. As the training signals for pre-fusion alignment are extremely limited, self-supervised contrastive learning strategies are employed to enforce the matching between different modalities. Our approach seamlessly integrates with the majority of existing models, resulting in improved navigation performance on various VLN benchmarks, including R2R, R4R, RxR and CVDN.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、見えない環境でナビゲートする必要がある。
タスク完了のためには、エージェントは、指示、観察、ナビゲーション履歴を含む様々なナビゲーションモダリティを調整および統合する必要がある。
既存の作業は、この目的を達成するために主に核融合段階におけるクロスモーダルな注意に焦点を当てている。
それでも、異なるユニエンコーダによって生成されるモダリティは、それぞれの空間に存在し、モダリティ間の融合と決定の質が低下する。
この問題に対処するために,クロスモーダルコントラスト学習によるDual-level AligNment(DELAN)フレームワークを提案する。
このフレームワークは、融合前に様々なナビゲーション関連モダリティを整列するように設計されており、これにより、相互モーダル相互作用とアクション決定の強化を図っている。
具体的には,プレフュージョンアライメントを,その意味的相関に基づいて,命令履歴レベルとランドマーク観測レベルという2つのレベルに分割する。
また、二重レベルアライメントへの適応のための二重レベル命令を再構成する。
プレフュージョンアライメントのためのトレーニング信号は非常に限られているため、異なるモーダル間のマッチングを強制するために自己教師付きコントラスト学習戦略が採用されている。
提案手法は既存のモデルの大部分とシームレスに統合され,R2R,R4R,RxR,CVDNなど,さまざまなVLNベンチマークのナビゲーション性能が向上した。
関連論文リスト
- Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning [50.1035273069458]
音声言語理解(SLU)はタスク指向対話システムにおける中核的なタスクである。
本稿では,発話レベル,スロットレベル,単語レベルを含む3段階のコントラスト学習を実現するためのマルチレベルMMCLフレームワークを提案する。
本フレームワークは,2つの公開マルチインテリジェントSLUデータセットに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2024-05-31T14:34:23Z) - Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language
Navigation [23.94546957057613]
クロスモーダルアライメントはビジョン・アンド・ランゲージ・ナビゲーション(VLN)の鍵となる課題である
本稿では,VLNタスクの事前学習パラダイムとして,GELA(Gunded Entity-Landmark Adaptive)を提案する。
論文 参考訳(メタデータ) (2023-08-24T06:25:20Z) - Bridging the Gap Between Learning in Discrete and Continuous
Environments for Vision-and-Language Navigation [41.334731014665316]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における既存の作業のほとんどは、離散的または連続的な環境に焦点を当てている。
ナビゲーション中に候補となるウェイポイントの集合を生成するための予測器を提案する。
予測された経路点を持つ連続環境を航行するエージェントは,低レベル動作を使用するエージェントよりも有意に優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-05T14:56:14Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。