Fugu-MT 論文翻訳(概要): Diagnosing the Environment Bias in Vision-and-Language Navigation

論文の概要: Diagnosing the Environment Bias in Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2005.03086v1
Date: Wed, 6 May 2020 19:24:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 04:40:27.706728
Title: Diagnosing the Environment Bias in Vision-and-Language Navigation
Title（参考訳）: 視覚・言語ナビゲーションにおける環境バイアスの診断
Authors: Yubo Zhang, Hao Tan, Mohit Bansal
Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。 VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
参考スコア（独自算出の注目度）: 102.02103792590076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-Language Navigation (VLN) requires an agent to follow natural-language instructions, explore the given environments, and reach the desired target locations. These step-by-step navigational instructions are crucial when the agent is navigating new environments about which it has no prior knowledge. Most recent works that study VLN observe a significant performance drop when tested on unseen environments (i.e., environments not used in training), indicating that the neural agent models are highly biased towards training environments. Although this issue is considered as one of the major challenges in VLN research, it is still under-studied and needs a clearer explanation. In this work, we design novel diagnosis experiments via environment re-splitting and feature replacement, looking into possible reasons for this environment bias. We observe that neither the language nor the underlying navigational graph, but the low-level visual appearance conveyed by ResNet features directly affects the agent model and contributes to this environment bias in results. According to this observation, we explore several kinds of semantic representations that contain less low-level visual information, hence the agent learned with these features could be better generalized to unseen testing environments. Without modifying the baseline agent model and its training method, our explored semantic features significantly decrease the performance gaps between seen and unseen on multiple datasets (i.e. R2R, R4R, and CVDN) and achieve competitive unseen results to previous state-of-the-art models. Our code and features are available at: https://github.com/zhangybzbo/EnvBiasVLN
Abstract（参考訳）: 視覚言語ナビゲーション(vln)は、エージェントが自然言語命令に従い、与えられた環境を探索し、目的の場所に到達することを要求する。これらのステップバイステップのナビゲーション命令は、エージェントが事前の知識を持たない新しい環境をナビゲートする場合に不可欠である。 VLNを研究する最近の研究は、目に見えない環境(トレーニングに使用されていない環境)でテストすると、顕著なパフォーマンス低下が観察され、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。この問題は、VLN研究における大きな課題の1つと考えられているが、まだ未研究であり、より明確な説明が必要である。本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。本研究では,ResNetの機能によって伝達される低レベルの視覚的外観がエージェントモデルに直接影響を与え,その結果の環境バイアスに寄与することを示す。本研究は,低レベルな視覚情報を含むいくつかの意味表現を探索し,これらの特徴から学習したエージェントを,未知のテスト環境に最適化する。ベースラインエージェントモデルとそのトレーニング方法を変更せずに,複数のデータセット(すなわちr2r,r4r,cvdn)における視認と視認の間のパフォーマンスギャップを著しく低減し,従来の最先端モデルに対する競合的未認識結果を達成する。私たちのコードと機能は、https://github.com/zhangybzbo/envbiasvlnで利用可能です。

関連論文リスト

UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations [41.5875455113941]
先進的なVLNモデルが実際の環境の視覚的内容を理解しているかどうかを検討する。意外なことに、ノイズの多い視覚入力であっても、単純な分岐展開は、パラドックス的にナビゲーションの有効性を向上する。分岐量と視覚的品質の両方の影響を探索する多機能マルチブランチアーキテクチャ(MBA)を提案する。
論文参考訳（メタデータ） (2024-09-09T12:17:38Z)
Interpretable Brain-Inspired Representations Improve RL Performance on Visual Navigation Tasks [0.0]
本研究では,視覚データの解釈可能な表現を生成することにより,遅い特徴解析(SFA)の手法が両方の制約を克服することを示す。我々はSFAを現代の強化学習の文脈で採用し、表現を分析し比較し、階層的なSFAがナビゲーションタスクにおいて他の特徴抽出器よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-19T11:35:01Z)
Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文参考訳（メタデータ） (2022-09-10T19:04:40Z)
What do navigation agents learn about their environment? [39.74076893981299]
本稿では、ポイントゴールナビゲーションエージェントとオブジェクトゴールナビゲーションエージェントのための、エンボディード・アグエント(iSEE)の解釈可能性システムについて紹介する。これらのエージェントが生成する動的表現をiSEEを用いて探索し,エージェントや環境に関する情報を提示する。
論文参考訳（メタデータ） (2022-06-17T01:33:43Z)
Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文参考訳（メタデータ） (2021-08-26T11:41:03Z)
Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文参考訳（メタデータ） (2021-06-15T04:34:26Z)
Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文参考訳（メタデータ） (2021-03-30T17:59:07Z)
Environment-agnostic Multitask Learning for Natural Language Grounded Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文参考訳（メタデータ） (2020-03-01T09:06:31Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。