論文の概要: ESceme: Vision-and-Language Navigation with Episodic Scene Memory
- arxiv url: http://arxiv.org/abs/2303.01032v3
- Date: Mon, 15 Jul 2024 08:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 05:28:16.755733
- Title: ESceme: Vision-and-Language Navigation with Episodic Scene Memory
- Title(参考訳): ESceme: エピソード記憶による視覚・言語ナビゲーション
- Authors: Qi Zheng, Daqing Liu, Chaoyue Wang, Jing Zhang, Dadong Wang, Dacheng Tao,
- Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
- 参考スコア(独自算出の注目度): 72.69189330588539
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-and-language navigation (VLN) simulates a visual agent that follows natural-language navigation instructions in real-world scenes. Existing approaches have made enormous progress in navigation in new environments, such as beam search, pre-exploration, and dynamic or hierarchical history encoding. To balance generalization and efficiency, we resort to memorizing visited scenarios apart from the ongoing route while navigating. In this work, we introduce a mechanism of Episodic Scene memory (ESceme) for VLN that wakes an agent's memories of past visits when it enters the current scene. The episodic scene memory allows the agent to envision a bigger picture of the next prediction. This way, the agent learns to utilize dynamically updated information instead of merely adapting to the current observations. We provide a simple yet effective implementation of ESceme by enhancing the accessible views at each location and progressively completing the memory while navigating. We verify the superiority of ESceme on short-horizon (R2R), long-horizon (R4R), and vision-and-dialog (CVDN) VLN tasks. Our ESceme also wins first place on the CVDN leaderboard. Code is available: \url{https://github.com/qizhust/esceme}.
- Abstract(参考訳): ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
既存のアプローチは、ビームサーチ、探索前、動的または階層的なヒストリエンコーディングなど、新しい環境におけるナビゲーションに大きな進歩をもたらした。
一般化と効率のバランスをとるために,現在進行中の経路とは別に,訪問したシナリオを記憶する。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
エピソードシーン記憶により、エージェントは次の予測のより大きな画像を想像することができる。
このようにして、エージェントは、現在の観測にのみ適応するのではなく、動的に更新された情報を活用することを学習する。
本研究では,各地点でアクセス可能なビューを拡大し,ナビゲーション中にメモリを段階的に完了させることにより,EScemeの簡易かつ効果的な実装を提供する。
本稿では,ショートホライズン(R2R),ロングホライズン(R4R),ビジョン・アンド・ダイアログ(CVDN)VLNタスクにおけるEScemeの優位性を検証する。
私たちのEScemeはCVDNのリーダーボードでも優勝しています。
コードは: \url{https://github.com/qizhust/esceme}.comで入手できる。
関連論文リスト
- Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Iterative Vision-and-Language Navigation [21.529113549298764]
イテレーティブ・ビジョン・アンド・ランゲージ・ナビゲーション(Iterative Vision-and-Language Navigation、IVLN)は、言語誘導エージェントを時間とともに持続的な環境でナビゲートするためのパラダイムである。
既存のベンチマークは、各エピソードの開始時にエージェントのメモリを消去し、事前情報なしでコールドスタートナビゲーションを実行する機能をテストする。
室内80のシーンで約400のツアーからなる個別かつ連続的なIR2Rベンチマークを示す。
論文 参考訳(メタデータ) (2022-10-06T17:46:00Z) - History Aware Multimodal Transformer for Vision-and-Language Navigation [96.80655332881432]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。
長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
論文 参考訳(メタデータ) (2021-10-25T22:54:41Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - SSCNav: Confidence-Aware Semantic Scene Completion for Visual Semantic
Navigation [22.0915442335966]
本稿では,アクティブエージェントが未知の環境で特定の対象オブジェクトカテゴリにナビゲートするためのアクションを生成するタスクであるビジュアルセマンティックナビゲーションに焦点を当てる。
SSCNavは,自信を意識したセマンティックシーン補完モジュールを用いて,シーン先行を明示的にモデル化するアルゴリズムである。
実験により,提案したシーン補完モジュールは,下流ナビゲーションポリシーの効率を向上することを示した。
論文 参考訳(メタデータ) (2020-12-08T15:59:47Z) - Vision-Dialog Navigation by Exploring Cross-modal Memory [107.13970721435571]
視覚ダイアログナビゲーションは、視覚言語ディシプリナターゲットの新たな聖杯タスクとして機能する。
本稿では,歴史的ナビゲーション行動に関連する豊富な情報を記憶し,理解するためのクロスモーダルメモリネットワーク(CMN)を提案する。
私たちのCMNは、従来の最先端モデルよりも、目に見える環境と目に見えない環境の両方で大きな差があります。
論文 参考訳(メタデータ) (2020-03-15T03:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。