論文の概要: Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning
- arxiv url: http://arxiv.org/abs/2011.10972v1
- Date: Sun, 22 Nov 2020 09:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 08:49:53.827055
- Title: Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning
- Title(参考訳): クロスモーダルグラウンドと交互学習による言語誘導ナビゲーション
- Authors: Weixia Zhang, Chao Ma, Qi Wu and Xiaokang Yang
- Abstract要約: 新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
- 参考スコア(独自算出の注目度): 66.9937776799536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emerging vision-and-language navigation (VLN) problem aims at learning to
navigate an agent to the target location in unseen photo-realistic environments
according to the given language instruction. The main challenges of VLN arise
mainly from two aspects: first, the agent needs to attend to the meaningful
paragraphs of the language instruction corresponding to the dynamically-varying
visual environments; second, during the training process, the agent usually
imitate the shortest-path to the target location. Due to the discrepancy of
action selection between training and inference, the agent solely on the basis
of imitation learning does not perform well. Sampling the next action from its
predicted probability distribution during the training process allows the agent
to explore diverse routes from the environments, yielding higher success rates.
Nevertheless, without being presented with the shortest navigation paths during
the training process, the agent may arrive at the target location through an
unexpected longer route. To overcome these challenges, we design a cross-modal
grounding module, which is composed of two complementary attention mechanisms,
to equip the agent with a better ability to track the correspondence between
the textual and visual modalities. We then propose to recursively alternate the
learning schemes of imitation and exploration to narrow the discrepancy between
training and inference. We further exploit the advantages of both these two
learning schemes via adversarial learning. Extensive experimental results on
the Room-to-Room (R2R) benchmark dataset demonstrate that the proposed learning
scheme is generalized and complementary to prior arts. Our method performs well
against state-of-the-art approaches in terms of effectiveness and efficiency.
- Abstract(参考訳): 新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、与えられた言語命令に従って、見えない写真リアリスティックな環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
訓練と推論の間の行動選択の不一致のため、模倣学習のみに基づくエージェントはうまく動作しない。
トレーニングプロセス中に予測された確率分布から次のアクションをサンプリングすることで、エージェントは環境からの多様な経路を探索でき、高い成功率が得られる。
それにもかかわらず、訓練過程の最短航路が提示されることなく、エージェントは予想外の長い経路を通って目標地点に到着することができる。
これらの課題を克服するために,2つの相補的な注意機構から構成されるクロスモーダルグラウンドモジュールを設計し,テキストと視覚の対応性を追跡する能力に優れたエージェントを装備する。
そこで我々は,模倣と探索の学習スキームを再帰的に交換し,学習と推論の相違を狭めることを提案する。
さらに,この2つの学習手法の利点を,敵対的学習を通じて活用する。
Room-to-Room(R2R)ベンチマークデータセットの大規模な実験結果から,提案手法が一般化され,先行技術と相補的であることが示された。
提案手法は, 有効性と効率性の観点から, 最先端手法に対して良好に機能する。
関連論文リスト
- Multi-Agent Transfer Learning via Temporal Contrastive Learning [8.487274986507922]
本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。
このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。
論文 参考訳(メタデータ) (2024-06-03T14:42:14Z) - DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning [40.87681228125296]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、見えない環境でナビゲートする必要がある。
タスク完了のためには、エージェントは、指示、観察、ナビゲーション履歴を含む様々なナビゲーションモダリティを調整および統合する必要がある。
論文 参考訳(メタデータ) (2024-04-02T14:40:04Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。