論文の概要: Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation
- arxiv url: http://arxiv.org/abs/2003.00443v5
- Date: Tue, 21 Jul 2020 02:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 12:38:54.877988
- Title: Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation
- Title(参考訳): 自然言語接地ナビゲーションのための環境依存型マルチタスク学習
- Authors: Xin Eric Wang, Vihan Jain, Eugene Ie, William Yang Wang, Zornitsa
Kozareva, Sujith Ravi
- Abstract要約: 本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
- 参考スコア(独自算出の注目度): 88.69873520186017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent research efforts enable study for natural language grounded navigation
in photo-realistic environments, e.g., following natural language instructions
or dialog. However, existing methods tend to overfit training data in seen
environments and fail to generalize well in previously unseen environments. To
close the gap between seen and unseen environments, we aim at learning a
generalized navigation model from two novel perspectives: (1) we introduce a
multitask navigation model that can be seamlessly trained on both
Vision-Language Navigation (VLN) and Navigation from Dialog History (NDH)
tasks, which benefits from richer natural language guidance and effectively
transfers knowledge across tasks; (2) we propose to learn environment-agnostic
representations for the navigation policy that are invariant among the
environments seen during training, thus generalizing better on unseen
environments. Extensive experiments show that environment-agnostic multitask
learning significantly reduces the performance gap between seen and unseen
environments, and the navigation agent trained so outperforms baselines on
unseen environments by 16% (relative measure on success rate) on VLN and 120%
(goal progress) on NDH. Our submission to the CVDN leaderboard establishes a
new state-of-the-art for the NDH task on the holdout test set. Code is
available at https://github.com/google-research/valan.
- Abstract(参考訳): 最近の研究により、自然言語指示や対話など、フォトリアリズム環境における自然言語接地ナビゲーションの研究が可能となった。
しかし、既存の手法ではトレーニングデータに過度に適合する傾向があり、以前は見つからなかった環境ではうまく一般化できない。
To close the gap between seen and unseen environments, we aim at learning a generalized navigation model from two novel perspectives: (1) we introduce a multitask navigation model that can be seamlessly trained on both Vision-Language Navigation (VLN) and Navigation from Dialog History (NDH) tasks, which benefits from richer natural language guidance and effectively transfers knowledge across tasks; (2) we propose to learn environment-agnostic representations for the navigation policy that are invariant among the environments seen during training, thus generalizing better on unseen environments.
広汎な実験により, 環境非依存型マルチタスク学習は, 目視環境と目視環境との間の性能ギャップを著しく低減し, ナビゲーションエージェントは, VLNで16%, NDHで120%, 目視環境で16%, 目視環境で120%に改善した。
我々のCVDNリーダーボードへの提出は、ホールドアウトテストセット上でNDHタスクのための新しい最先端技術を確立する。
コードはhttps://github.com/google-research/valanで入手できる。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Vision-Language Navigation with Continual Learning [10.850410419782424]
視覚言語ナビゲーション(VLN)は、組み込みインテリジェンスにおいて重要なドメインである。
本稿では,この課題に対処するために,ビジョンランゲージナビゲーションと連続学習パラダイムを提案する。
このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
論文 参考訳(メタデータ) (2024-09-04T09:28:48Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - SASRA: Semantically-aware Spatio-temporal Reasoning Agent for
Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。
既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。
本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文 参考訳(メタデータ) (2021-08-26T17:57:02Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。