論文の概要: EnvEdit: Environment Editing for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2203.15685v1
- Date: Tue, 29 Mar 2022 15:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 12:23:00.340808
- Title: EnvEdit: Environment Editing for Vision-and-Language Navigation
- Title(参考訳): envedit: 視覚言語ナビゲーションのための環境編集
- Authors: Jialu Li, Hao Tan, Mohit Bansal
- Abstract要約: Vision-and-Language Navigation (VLN)では、エージェントは自然言語命令に基づいて環境をナビゲートする必要がある。
本研究では,既存の環境を編集して新しい環境を作成するデータ拡張手法であるEnvEditを提案する。
提案手法は,事前学習および未学習のVLNエージェントにおいて,すべての指標において有意な改善が得られたことを示す。
- 参考スコア(独自算出の注目度): 98.30038910061894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Vision-and-Language Navigation (VLN), an agent needs to navigate through
the environment based on natural language instructions. Due to limited
available data for agent training and finite diversity in navigation
environments, it is challenging for the agent to generalize to new, unseen
environments. To address this problem, we propose EnvEdit, a data augmentation
method that creates new environments by editing existing environments, which
are used to train a more generalizable agent. Our augmented environments can
differ from the seen environments in three diverse aspects: style, object
appearance, and object classes. Training on these edit-augmented environments
prevents the agent from overfitting to existing environments and helps
generalize better to new, unseen environments. Empirically, on both the
Room-to-Room and the multi-lingual Room-Across-Room datasets, we show that our
proposed EnvEdit method gets significant improvements in all metrics on both
pre-trained and non-pre-trained VLN agents, and achieves the new
state-of-the-art on the test leaderboard. We further ensemble the VLN agents
augmented on different edited environments and show that these edit methods are
complementary. Code and data are available at
https://github.com/jialuli-luka/EnvEdit
- Abstract(参考訳): Vision-and-Language Navigation (VLN)では、エージェントは自然言語命令に基づいて環境をナビゲートする必要がある。
エージェントトレーニングのための限られたデータとナビゲーション環境における有限な多様性のため、エージェントが新しい、目に見えない環境に一般化することは困難である。
そこで本研究では,より汎用的なエージェントの訓練に使用される既存環境を編集することにより,新しい環境を創り出すデータ拡張手法であるenveditを提案する。
私たちの拡張環境は、スタイル、オブジェクトの外観、オブジェクトクラスという3つの異なる側面で、見かけた環境と異なります。
これらの編集可能な環境のトレーニングは、エージェントが既存の環境に過度に適合することを防ぎ、新しい目に見えない環境に一般化するのに役立つ。
実験として,ルームツールームとマルチランゲージのルームアクロスルームデータセットの両方において,提案手法が事前学習および非訓練vlnエージェントにおいて,すべてのメトリクスに大幅な改善を施し,テストリーダボード上で新たな最先端を実現することを示す。
さらに,異なる編集環境に拡張されたvlnエージェントを整理し,これらの編集手法が相補的であることを示す。
コードとデータはhttps://github.com/jialuli-luka/EnvEditで公開されている。
関連論文リスト
- ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments [13.988804095409133]
本研究では,実世界のシーン,オブジェクト,部屋のレイアウトを取り入れたReALFREDベンチマークを提案する。
具体的には、視覚領域のギャップを小さくした環境空間を更新したALFREDベンチマークを拡張する。
ReALFREDでは、以前作られたALFREDベンチマークのメソッドを分析し、すべてのメトリクスで一貫して低いパフォーマンスが得られることを観察する。
論文 参考訳(メタデータ) (2024-07-26T07:00:27Z) - PanoGen: Text-Conditioned Panoramic Environment Generation for
Vision-and-Language Navigation [96.8435716885159]
VLN(Vision-and-Language Navigation)は、エージェントが3D環境をナビゲートするために言語命令に従う必要がある。
VLNの主な課題のひとつは、トレーニング環境の可用性が限定されていることだ。
パノジェネレーション(PanoGen)は、テキストに条件付けされた多様なパノラマ環境を無限に生成できる生成方法である。
論文 参考訳(メタデータ) (2023-05-30T16:39:54Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Spot the Difference: A Novel Task for Embodied Agents in Changing
Environments [43.52107532692226]
Embodied AIは、環境の中で動き、操作できるインテリジェントなエージェントを作ることを目指している。
本研究では,エージェントが時代遅れの環境マップにアクセス可能なEmbodied AIのための新しいタスクであるSpot the differenceを提案する。
本研究では,環境に関する過去の知見を活かし,既存のエージェントよりも迅速かつ効果的に現場の変化を識別する探索政策を提案する。
論文 参考訳(メタデータ) (2022-04-18T18:30:56Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。