論文の概要: ESceme: Vision-and-Language Navigation with Episodic Scene Memory
- arxiv url: http://arxiv.org/abs/2303.01032v1
- Date: Thu, 2 Mar 2023 07:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:31:55.423544
- Title: ESceme: Vision-and-Language Navigation with Episodic Scene Memory
- Title(参考訳): ESceme: エピソード記憶による視覚・言語ナビゲーション
- Authors: Qi Zheng, Daqing Liu, Chaoyue Wang, Jing Zhang, Dadong Wang, Dacheng
Tao
- Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
短距離水平ナビゲーション(R2R)、長距離水平ナビゲーション(R4R)、ビジョン・アンド・ダイアログナビゲーション(CVDN)を含む3つのVLNタスクにおけるEScemeの優位性を検証する。
- 参考スコア(独自算出の注目度): 75.30999757774639
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-and-language navigation (VLN) simulates a visual agent that follows
natural-language navigation instructions in real-world scenes. Existing
approaches have made enormous progress in navigation in new environments, such
as beam search, pre-exploration, and dynamic or hierarchical history encoding.
To balance generalization and efficiency, we resort to memorizing visited
scenarios apart from the ongoing route while navigating. In this work, we
introduce a mechanism of Episodic Scene memory (ESceme) for VLN that wakes an
agent's memories of past visits when it enters the current scene. The episodic
scene memory allows the agent to envision a bigger picture of the next
prediction. In this way, the agent learns to make the most of currently
available information instead of merely adapting to the seen environments. We
provide a simple yet effective implementation by enhancing the observation
features of candidate nodes during training. We verify the superiority of
ESceme on three VLN tasks, including short-horizon navigation (R2R),
long-horizon navigation (R4R), and vision-and-dialog navigation (CVDN), and
achieve a new state-of-the-art. Code is available:
\url{https://github.com/qizhust/esceme}.
- Abstract(参考訳): vision-and-language navigation (vln)は、現実世界のシーンで自然言語ナビゲーション命令に従う視覚エージェントをシミュレートする。
既存のアプローチは、ビームサーチ、探索前、動的または階層的なヒストリエンコーディングなど、新しい環境におけるナビゲーションに大きな進歩をもたらした。
一般化と効率のバランスをとるために,現在進行中の経路とは別に,訪問したシナリオを記憶する。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
エピソディクスシーンメモリにより、エージェントは次の予測のより大きな図を思い描くことができる。
このようにしてエージェントは、単に見える環境に適応するのではなく、現在利用可能な情報を最大限に活用することを学ぶ。
トレーニング中の候補ノードの観測特性を向上させることで,簡便かつ効果的な実装を提供する。
本稿では,短水平ナビゲーション(R2R),長水平ナビゲーション(R4R),ビジョン・アンド・ダイアログナビゲーション(CVDN)を含む3つのVLNタスクにおけるEScemeの優位性を検証し,新しい最先端技術を実現する。
コードは: \url{https://github.com/qizhust/esceme}.comで入手できる。
関連論文リスト
- Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - History Aware Multimodal Transformer for Vision-and-Language Navigation [96.80655332881432]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。
長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
論文 参考訳(メタデータ) (2021-10-25T22:54:41Z) - VTNet: Visual Transformer Network for Object Goal Navigation [36.15625223586484]
ナビゲーションにおける情報的視覚表現を学習するためのVisual Transformer Network(VTNet)を導入する。
簡単に言うと、VTNetはオブジェクトとリージョンの機能を、空間認識ディスクリプタとして位置キューで埋め込む。
人工環境におけるAI2-Thorの実験は、VTNetが目に見えないテスト環境で最先端の手法を著しく上回っていることを実証している。
論文 参考訳(メタデータ) (2021-05-20T01:23:15Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。