論文の概要: Anticipating the Unseen Discrepancy for Vision and Language Navigation
- arxiv url: http://arxiv.org/abs/2209.04725v1
- Date: Sat, 10 Sep 2022 19:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:21:29.984083
- Title: Anticipating the Unseen Discrepancy for Vision and Language Navigation
- Title(参考訳): 視覚と言語ナビゲーションの不明瞭さを予想する
- Authors: Yujie Lu, Huiliang Zhang, Ping Nie, Weixi Feng, Wenda Xu, Xin Eric
Wang, William Yang Wang
- Abstract要約: 視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
- 参考スコア(独自算出の注目度): 63.399180481818405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Navigation requires the agent to follow natural language
instructions to reach a specific target. The large discrepancy between seen and
unseen environments makes it challenging for the agent to generalize well.
Previous studies propose data augmentation methods to mitigate the data bias
explicitly or implicitly and provide improvements in generalization. However,
they try to memorize augmented trajectories and ignore the distribution shifts
under unseen environments at test time. In this paper, we propose an Unseen
Discrepancy Anticipating Vision and Language Navigation (DAVIS) that learns to
generalize to unseen environments via encouraging test-time visual consistency.
Specifically, we devise: 1) a semi-supervised framework DAVIS that leverages
visual consistency signals across similar semantic observations. 2) a two-stage
learning procedure that encourages adaptation to test-time distribution. The
framework enhances the basic mixture of imitation and reinforcement learning
with Momentum Contrast to encourage stable decision-making on similar
observations under a joint training stage and a test-time adaptation stage.
Extensive experiments show that DAVIS achieves model-agnostic improvement over
previous state-of-the-art VLN baselines on R2R and RxR benchmarks. Our source
code and data are in supplemental materials.
- Abstract(参考訳): 視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
見えない環境と見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
従来の研究では、データバイアスを明示的にあるいは暗黙的に緩和し、一般化を改善するためのデータ拡張手法が提案されている。
しかし、拡張トラジェクタを記憶し、テスト時に見えない環境下での分布シフトを無視しようとする。
本稿では,テスト時の視覚的一貫性を奨励することにより,未認識環境への一般化を学習する非知覚予測視覚言語ナビゲーション(davis)を提案する。
具体的には、
1)類似のセマンティックな観察を通して視覚的整合性信号を利用する半教師付きフレームワークDAVIS。
2) テスト時間分布への適応を促す2段階の学習手順。
このフレームワークは、Momentum Contrastとの模倣と強化学習の基本的な混合を強化し、共同訓練段階と試験時間適応段階における同様の観察における安定した意思決定を促進する。
DAVISは従来のR2RとRxRベンチマークのVLNベースラインよりもモデルに依存しない改善を実現している。
ソースコードとデータは補足資料です。
関連論文リスト
- Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization [20.608059199982094]
本稿では,視覚・言語ナビゲーション(VLN)タスクにおける細粒度アライメントの課題に対処する。
現在のアプローチでは、対照的な学習を用いて、言語を視覚的軌跡シーケンスと整合させる。
本稿では, ベイズ最適化に基づく逆最適化フレームワークを導入し, 微細なコントラスト視覚サンプルを作成する。
論文 参考訳(メタデータ) (2024-11-22T09:12:02Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。
BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。
グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:40:35Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。