論文の概要: Diagnosing the Environment Bias in Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2005.03086v1
- Date: Wed, 6 May 2020 19:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 04:40:27.706728
- Title: Diagnosing the Environment Bias in Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションにおける環境バイアスの診断
- Authors: Yubo Zhang, Hao Tan, Mohit Bansal
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
- 参考スコア(独自算出の注目度): 102.02103792590076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to follow
natural-language instructions, explore the given environments, and reach the
desired target locations. These step-by-step navigational instructions are
crucial when the agent is navigating new environments about which it has no
prior knowledge. Most recent works that study VLN observe a significant
performance drop when tested on unseen environments (i.e., environments not
used in training), indicating that the neural agent models are highly biased
towards training environments. Although this issue is considered as one of the
major challenges in VLN research, it is still under-studied and needs a clearer
explanation. In this work, we design novel diagnosis experiments via
environment re-splitting and feature replacement, looking into possible reasons
for this environment bias. We observe that neither the language nor the
underlying navigational graph, but the low-level visual appearance conveyed by
ResNet features directly affects the agent model and contributes to this
environment bias in results. According to this observation, we explore several
kinds of semantic representations that contain less low-level visual
information, hence the agent learned with these features could be better
generalized to unseen testing environments. Without modifying the baseline
agent model and its training method, our explored semantic features
significantly decrease the performance gaps between seen and unseen on multiple
datasets (i.e. R2R, R4R, and CVDN) and achieve competitive unseen results to
previous state-of-the-art models. Our code and features are available at:
https://github.com/zhangybzbo/EnvBiasVLN
- Abstract(参考訳): 視覚言語ナビゲーション(vln)は、エージェントが自然言語命令に従い、与えられた環境を探索し、目的の場所に到達することを要求する。
これらのステップバイステップのナビゲーション命令は、エージェントが事前の知識を持たない新しい環境をナビゲートする場合に不可欠である。
VLNを研究する最近の研究は、目に見えない環境(トレーニングに使用されていない環境)でテストすると、顕著なパフォーマンス低下が観察され、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
この問題は、VLN研究における大きな課題の1つと考えられているが、まだ未研究であり、より明確な説明が必要である。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
本研究では,ResNetの機能によって伝達される低レベルの視覚的外観がエージェントモデルに直接影響を与え,その結果の環境バイアスに寄与することを示す。
本研究は,低レベルな視覚情報を含むいくつかの意味表現を探索し,これらの特徴から学習したエージェントを,未知のテスト環境に最適化する。
ベースラインエージェントモデルとそのトレーニング方法を変更せずに,複数のデータセット(すなわちr2r,r4r,cvdn)における視認と視認の間のパフォーマンスギャップを著しく低減し,従来の最先端モデルに対する競合的未認識結果を達成する。
私たちのコードと機能は、https://github.com/zhangybzbo/envbiasvlnで利用可能です。
関連論文リスト
- Narrowing the Gap between Vision and Action in Navigation [28.753809306008996]
本稿では,高レベル動作予測を併用した低レベル動作デコーダを提案する。
我々のエージェントは、ハイレベルアクションとローレベルアクションの両方の強力なベースラインと比較して、ナビゲーション性能の指標を改善することができる。
論文 参考訳(メタデータ) (2024-08-19T20:09:56Z) - Interpretable Brain-Inspired Representations Improve RL Performance on
Visual Navigation Tasks [0.0]
本研究では,視覚データの解釈可能な表現を生成することにより,遅い特徴解析(SFA)の手法が両方の制約を克服することを示す。
我々はSFAを現代の強化学習の文脈で採用し、表現を分析し比較し、階層的なSFAがナビゲーションタスクにおいて他の特徴抽出器よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T11:35:01Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - What do navigation agents learn about their environment? [39.74076893981299]
本稿では、ポイントゴールナビゲーションエージェントとオブジェクトゴールナビゲーションエージェントのための、エンボディード・アグエント(iSEE)の解釈可能性システムについて紹介する。
これらのエージェントが生成する動的表現をiSEEを用いて探索し,エージェントや環境に関する情報を提示する。
論文 参考訳(メタデータ) (2022-06-17T01:33:43Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。