論文の概要: Anticipating the Unseen Discrepancy for Vision and Language Navigation
- arxiv url: http://arxiv.org/abs/2209.04725v1
- Date: Sat, 10 Sep 2022 19:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:21:29.984083
- Title: Anticipating the Unseen Discrepancy for Vision and Language Navigation
- Title(参考訳): 視覚と言語ナビゲーションの不明瞭さを予想する
- Authors: Yujie Lu, Huiliang Zhang, Ping Nie, Weixi Feng, Wenda Xu, Xin Eric
Wang, William Yang Wang
- Abstract要約: 視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
- 参考スコア(独自算出の注目度): 63.399180481818405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Navigation requires the agent to follow natural language
instructions to reach a specific target. The large discrepancy between seen and
unseen environments makes it challenging for the agent to generalize well.
Previous studies propose data augmentation methods to mitigate the data bias
explicitly or implicitly and provide improvements in generalization. However,
they try to memorize augmented trajectories and ignore the distribution shifts
under unseen environments at test time. In this paper, we propose an Unseen
Discrepancy Anticipating Vision and Language Navigation (DAVIS) that learns to
generalize to unseen environments via encouraging test-time visual consistency.
Specifically, we devise: 1) a semi-supervised framework DAVIS that leverages
visual consistency signals across similar semantic observations. 2) a two-stage
learning procedure that encourages adaptation to test-time distribution. The
framework enhances the basic mixture of imitation and reinforcement learning
with Momentum Contrast to encourage stable decision-making on similar
observations under a joint training stage and a test-time adaptation stage.
Extensive experiments show that DAVIS achieves model-agnostic improvement over
previous state-of-the-art VLN baselines on R2R and RxR benchmarks. Our source
code and data are in supplemental materials.
- Abstract(参考訳): 視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
見えない環境と見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
従来の研究では、データバイアスを明示的にあるいは暗黙的に緩和し、一般化を改善するためのデータ拡張手法が提案されている。
しかし、拡張トラジェクタを記憶し、テスト時に見えない環境下での分布シフトを無視しようとする。
本稿では,テスト時の視覚的一貫性を奨励することにより,未認識環境への一般化を学習する非知覚予測視覚言語ナビゲーション(davis)を提案する。
具体的には、
1)類似のセマンティックな観察を通して視覚的整合性信号を利用する半教師付きフレームワークDAVIS。
2) テスト時間分布への適応を促す2段階の学習手順。
このフレームワークは、Momentum Contrastとの模倣と強化学習の基本的な混合を強化し、共同訓練段階と試験時間適応段階における同様の観察における安定した意思決定を促進する。
DAVISは従来のR2RとRxRベンチマークのVLNベースラインよりもモデルに依存しない改善を実現している。
ソースコードとデータは補足資料です。
関連論文リスト
- Reducing the Vision and Language Bias for Temporal Sentence Grounding [22.571577672704716]
本稿では,視覚と言語の両方において負のバイアスをフィルタし,除去するためのD-TSGモデルを提案する。
3つのベンチマークデータセット上で最先端の性能を達成することで、その効果を実証する。
論文 参考訳(メタデータ) (2022-07-27T11:18:45Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Semi-Supervised Bilingual Lexicon Induction with Two-way Interaction [19.99658962367335]
教師付き信号と教師なしアライメントの相互作用を促進するための,新しい半教師付きBLIフレームワークを提案する。
MUSEおよびVecMapデータセットの実験結果から,我々のモデルに大きな改善が得られた。
論文 参考訳(メタデータ) (2020-10-14T13:59:07Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z) - Augmented Cyclic Consistency Regularization for Unpaired Image-to-Image
Translation [22.51574923085135]
CCR(Augmented Cyclic Consistency Regularization)は、未ペアI2I翻訳の新しい正規化手法である。
本手法は実世界の翻訳における整合性正規化GAN(CR-GAN)よりも優れる。
論文 参考訳(メタデータ) (2020-02-29T06:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。