論文の概要: Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous
Environments
- arxiv url: http://arxiv.org/abs/2204.09667v1
- Date: Wed, 20 Apr 2022 17:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:46:45.208528
- Title: Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous
Environments
- Title(参考訳): 連続環境における視覚・言語ナビゲーションのためのsim-2-sim転送
- Authors: Jacob Krantz and Stefan Lee
- Abstract要約: 本稿では, VLN の抽象環境から VLN-CE の連続環境へのエージェントの移動について述べる。
この移行は非常に効果的であり,先行技術よりも+12%の成功率の向上が期待できる。
このことは、この方向の可能性を示しているが、転送は抽象的な設定でエージェントの本来のパフォーマンスを完全に保持していない。
- 参考スコア(独自算出の注目度): 22.884134539590868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in Vision-and-Language Navigation (VLN) has presented two
environmental paradigms with differing realism -- the standard VLN setting
built on topological environments where navigation is abstracted away, and the
VLN-CE setting where agents must navigate continuous 3D environments using
low-level actions. Despite sharing the high-level task and even the underlying
instruction-path data, performance on VLN-CE lags behind VLN significantly. In
this work, we explore this gap by transferring an agent from the abstract
environment of VLN to the continuous environment of VLN-CE. We find that this
sim-2-sim transfer is highly effective, improving over the prior state of the
art in VLN-CE by +12% success rate. While this demonstrates the potential for
this direction, the transfer does not fully retain the original performance of
the agent in the abstract setting. We present a sequence of experiments to
identify what differences result in performance degradation, providing clear
directions for further improvement.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)の最近の研究は、ナビゲーションを抽象化するトポロジカル環境上に構築された標準的なVLN設定と、エージェントが低レベルなアクションを使用して連続的な3D環境をナビゲートしなければならないVLN-CEという2つの環境パラダイムを提示した。
高レベルなタスクと基礎となる命令パスデータを共有するにもかかわらず、VLN-CEのパフォーマンスはVLNよりもかなり遅れている。
本稿では, VLN の抽象環境から VLN-CE の連続環境へエージェントを移動させることにより, このギャップを解明する。
このsim-2-simトランスファーは非常に効果的であり,VLN-CEの先行技術よりも+12%の成功率の向上が見られた。
これはこの方向の可能性を示しているが、転送は抽象的な設定でエージェントの本来の性能を完全に保持していない。
性能劣化の原因となる相違点を特定するための一連の実験を行い、さらなる改善に向けた明確な方向性を示す。
関連論文リスト
- ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation [87.03299519917019]
視覚言語ナビゲーション(VLN)では、自然言語の指示に従って現実的な3D環境をナビゲートするために、具体的エージェントが必要である。
我々はHM3Dから900の未ラベルの3Dビルディングから大規模VLNデータセットを自動生成することを提案する。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-08-24T21:50:20Z) - Analyzing Generalization of Vision and Language Navigation to Unseen
Outdoor Areas [19.353847681872608]
視覚と言語ナビゲーション(VLN)は、視覚的な言語理解の課題である。
室内のVLNとは対照的に、未確認データに対する屋外VLNの利得の大部分は、ジャンクション型埋め込みやデルタの向きといった特徴によるものである。
これらの結果は,VLNタスクの大規模化と地理的環境の多様性を要求され,都市環境のグラフ表現に偏っていることを示している。
論文 参考訳(メタデータ) (2022-03-25T18:06:14Z) - Bridging the Gap Between Learning in Discrete and Continuous
Environments for Vision-and-Language Navigation [41.334731014665316]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における既存の作業のほとんどは、離散的または連続的な環境に焦点を当てている。
ナビゲーション中に候補となるウェイポイントの集合を生成するための予測器を提案する。
予測された経路点を持つ連続環境を航行するエージェントは,低レベル動作を使用するエージェントよりも有意に優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-05T14:56:14Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。