論文の概要: Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2203.16586v1
- Date: Wed, 30 Mar 2022 18:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:08:22.915140
- Title: Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation
- Title(参考訳): 視覚言語ナビゲーションにおける命令追従と生成のための対実的サイクル一貫性学習
- Authors: Hanqing Wang, Wei Liang, Jianbing Shen, Luc Van Gool, Wenguan Wang
- Abstract要約: 本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
- 参考スコア(独自算出の注目度): 172.15808300686584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the rise of vision-language navigation (VLN), great progress has been
made in instruction following -- building a follower to navigate environments
under the guidance of instructions. However, far less attention has been paid
to the inverse task: instruction generation -- learning a speaker~to generate
grounded descriptions for navigation routes. Existing VLN methods train a
speaker independently and often treat it as a data augmentation tool to
strengthen the follower while ignoring rich cross-task relations. Here we
describe an approach that learns the two tasks simultaneously and exploits
their intrinsic correlations to boost the training of each: the follower judges
whether the speaker-created instruction explains the original navigation route
correctly, and vice versa. Without the need of aligned instruction-path pairs,
such cycle-consistent learning scheme is complementary to task-specific
training targets defined on labeled data, and can also be applied over
unlabeled paths (sampled without paired instructions). Another agent,
called~creator is added to generate counterfactual environments. It greatly
changes current scenes yet leaves novel items -- which are vital for the
execution of original instructions -- unchanged. Thus more informative training
scenes are synthesized and the three agents compose a powerful VLN learning
system. Extensive experiments on a standard benchmark show that our approach
improves the performance of various follower models and produces accurate
navigation instructions.
- Abstract(参考訳): 視覚言語ナビゲーション(vln: vision-language navigation)の台頭以来、次の命令で大きな進歩を遂げてきた。 指示の指導の下で環境をナビゲートするためのフォロワを構築する。しかし、逆タスクにはそれほど注意が払われていない: 命令生成 -- 話者を学習する -- ナビゲーションルートの接地記述を生成する。
既存のvlnメソッドは、話者を独立に訓練し、リッチなクロスタスク関係を無視しながら、従者を強化するためのデータ拡張ツールとして扱うことが多い。
本稿では,2つのタスクを同時に学習し,その内在的な相関を利用して各タスクの学習を促進させる手法について述べる。
このようなサイクル一貫性のある学習スキームは、ラベル付きデータで定義されたタスク固有のトレーニングターゲットを補完するものであり、ラベル付きパス(ペアの命令なしでサンプリングされる)にも適用できる。
creatorと呼ばれる別のエージェントは、反ファクト環境を生成するために追加される。
現在のシーンは大きく変わるが、オリジナルの命令を実行するのに欠かせない新しい項目は残っていない。
このように、より情報的な訓練シーンが合成され、3つのエージェントが強力なVLN学習システムを構成する。
標準ベンチマークにおける広範囲な実験により,提案手法が様々な従者モデルの性能を改善し,正確なナビゲーション命令を生成することを示した。
関連論文リスト
- From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。