論文の概要: Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation
- arxiv url: http://arxiv.org/abs/2112.04138v2
- Date: Thu, 9 Dec 2021 06:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 12:55:50.593756
- Title: Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation
- Title(参考訳): 視覚言語ナビゲーションのためのコントラスト学習
- Authors: Xiwen Liang, Fengda Zhu, Yi Zhu, Bingqian Lin, Bing Wang, Xiaodan
Liang
- Abstract要約: 視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.16980504844233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vision-language navigation (VLN) task requires an agent to reach a target
with the guidance of natural language instruction. Previous works learn to
navigate step-by-step following an instruction. However, these works may fail
to discriminate the similarities and discrepancies across
instruction-trajectory pairs and ignore the temporal continuity of
sub-instructions. These problems hinder agents from learning distinctive
vision-and-language representations, harming the robustness and
generalizability of the navigation policy. In this paper, we propose a
Contrastive Instruction-Trajectory Learning (CITL) framework that explores
invariance across similar data samples and variance across different ones to
learn distinctive representations for robust navigation. Specifically, we
propose: (1) a coarse-grained contrastive learning objective to enhance
vision-and-language representations by contrasting semantics of full trajectory
observations and instructions, respectively; (2) a fine-grained contrastive
learning objective to perceive instructions by leveraging the temporal
information of the sub-instructions; (3) a pairwise sample-reweighting
mechanism for contrastive learning to mine hard samples and hence mitigate the
influence of data sampling bias in contrastive learning. Our CITL can be easily
integrated with VLN backbones to form a new learning paradigm and achieve
better generalizability in unseen environments. Extensive experiments show that
the model with CITL surpasses the previous state-of-the-art methods on R2R,
R4R, and RxR.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語命令のガイダンスでターゲットに到達する必要がある。
以前の作業は、命令に従ってステップバイステップでナビゲートすることを学ぶ。
しかし、これらの著作は命令-主対間の類似性と不一致を区別できず、副指示の時間的連続性を無視できない可能性がある。
これらの問題はエージェントが視覚的な視覚と言語表現を学ぶことを妨げ、ナビゲーションポリシーの堅牢性と一般化性を損なう。
本稿では、類似データサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストナビゲーションのための特徴表現を学習するContrastive Instruction-Trajectory Learning (CITL)フレームワークを提案する。
Specifically, we propose: (1) a coarse-grained contrastive learning objective to enhance vision-and-language representations by contrasting semantics of full trajectory observations and instructions, respectively; (2) a fine-grained contrastive learning objective to perceive instructions by leveraging the temporal information of the sub-instructions; (3) a pairwise sample-reweighting mechanism for contrastive learning to mine hard samples and hence mitigate the influence of data sampling bias in contrastive learning.
我々のCITLは、VLNバックボーンと容易に統合でき、新しい学習パラダイムを形成し、目に見えない環境でより良い一般化を実現することができる。
大規模な実験により,CITLを用いたモデルが従来のR2R,R4R,RxRの最先端手法を上回ることがわかった。
関連論文リスト
- Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - InfoDCL: A Distantly Supervised Contrastive Learning Framework for
Social Meaning [12.219025716422099]
本稿では,自然に発生する代理ラベルをコントラスト学習の文脈で活用する,効果的な遠隔教師付きコントラスト学習フレームワーク(InfoDCL)を提案する。
我々のフレームワークは、幅広い社会的意味課題において、既存のコントラスト学習手法よりも優れています。
私たちの手法は、英語に加えて3つの言語で示されるように、言語に依存しない。
論文 参考訳(メタデータ) (2022-03-15T05:07:04Z) - Simple Contrastive Representation Adversarial Learning for NLP Tasks [17.12062566060011]
教師付きコントラスト対逆学習(SCAL)と教師なしSCAL(USCAL)の2つの新しいフレームワークを提案する。
本稿では,自然言語理解,文意味的テキスト類似性,対人学習タスクのためのTransformerベースのモデルに適用する。
GLUEベンチマークタスクの実験結果から,細調整された教師付き手法はBERT$_base$1.75%以上の性能を示した。
論文 参考訳(メタデータ) (2021-11-26T03:16:09Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - A Broad Study on the Transferability of Visual Representations with
Contrastive Learning [15.667240680328922]
線形評価, 全ネットワーク転送, 数ショット認識のための造影的アプローチの学習表現の伝達性について検討する。
その結果、コントラスト的アプローチは、異なる下流タスクに簡単に移行できる表現を学習できることが示される。
分析の結果, コントラスト的アプローチから得られた表現は, クロスエントロピーモデルよりも低レベル・中レベルセマンティクスを含んでいることがわかった。
論文 参考訳(メタデータ) (2021-03-24T22:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。