論文の概要: MemoNav: Working Memory Model for Visual Navigation
- arxiv url: http://arxiv.org/abs/2402.19161v1
- Date: Thu, 29 Feb 2024 13:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:46:24.098542
- Title: MemoNav: Working Memory Model for Visual Navigation
- Title(参考訳): MemoNav: ビジュアルナビゲーションのためのワーキングメモリモデル
- Authors: Hongxin Li, Zeyu Wang, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang
- Abstract要約: イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
- 参考スコア(独自算出の注目度): 49.81380163967168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-goal navigation is a challenging task that requires an agent to
navigate to a goal indicated by an image in unfamiliar environments. Existing
methods utilizing diverse scene memories suffer from inefficient exploration
since they use all historical observations for decision-making without
considering the goal-relevant fraction. To address this limitation, we present
MemoNav, a novel memory model for image-goal navigation, which utilizes a
working memory-inspired pipeline to improve navigation performance.
Specifically, we employ three types of navigation memory. The node features on
a map are stored in the short-term memory (STM), as these features are
dynamically updated. A forgetting module then retains the informative STM
fraction to increase efficiency. We also introduce long-term memory (LTM) to
learn global scene representations by progressively aggregating STM features.
Subsequently, a graph attention module encodes the retained STM and the LTM to
generate working memory (WM) which contains the scene features essential for
efficient navigation. The synergy among these three memory types boosts
navigation performance by enabling the agent to learn and leverage
goal-relevant scene features within a topological map. Our evaluation on
multi-goal tasks demonstrates that MemoNav significantly outperforms previous
methods across all difficulty levels in both Gibson and Matterport3D scenes.
Qualitative results further illustrate that MemoNav plans more efficient
routes.
- Abstract(参考訳): 画像ナビゲーションは、エージェントが未知の環境で画像が示すゴールまでナビゲートする必要がある困難なタスクである。
多様なシーン記憶を利用する既存の方法は、ゴール関連率を考慮せずにすべての歴史的観察を意思決定に利用するため、非効率な探索に苦しむ。
この制限に対処するために,動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,画像ゴールナビゲーションの新しいメモリモデルであるMemoNavを提案する。
具体的には,3種類のナビゲーションメモリを用いる。
地図上のノード機能は短期記憶(STM)に格納され、これらの機能は動的に更新される。
忘れるモジュールは、効率を上げるために情報的STM分数を保持する。
また,STM機能を段階的に集約することで,グローバルなシーン表現を学習するための長期記憶(LTM)も導入する。
その後、グラフアテンションモジュールは、保持されたSTMとLTMを符号化して、効率的なナビゲーションに必要なシーン特徴を含むワーキングメモリ(WM)を生成する。
これら3つのメモリタイプ間の相乗効果により、トポロジマップ内の目標関連シーンの特徴を学習し活用することにより、ナビゲーション性能が向上する。
マルチゴールタスクにおける評価の結果,gibsonおよびmatterport3dシーンの難易度レベルにおいて,memonavが従来の手法を大きく上回っていることが示された。
質的な結果は、MemoNavがより効率的なルートを計画していることを示している。
関連論文リスト
- MAMBA: Multi-level Aggregation via Memory Bank for Video Object
Detection [35.16197118579414]
我々は,MAMBAと呼ばれるメモリバンクを用いたマルチレベル集約アーキテクチャを提案する。
具体的には,既存の手法の欠点を解消するために,メモリバンクが2つの新しい操作を施している。
従来の最先端手法と比較して,提案手法は速度と精度の両面で優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-01-18T12:13:06Z) - Navigating to Objects Specified by Images [86.9672766351891]
シミュレーションと実世界の両方でタスクを実行できるシステムを提案する。
我々のモジュラー手法は探索,ゴールインスタンスの再識別,ゴールローカライゼーション,ローカルナビゲーションのサブタスクを解決する。
HM3D InstanceImageNavベンチマークでは、このシステムはベースラインのエンドツーエンドのRLポリシー7xと最先端のImageNavモデル2.3xを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:00Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [75.30999757774639]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
短距離水平ナビゲーション(R2R)、長距離水平ナビゲーション(R4R)、ビジョン・アンド・ダイアログナビゲーション(CVDN)を含む3つのVLNタスクにおけるEScemeの優位性を検証する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - MemoNav: Selecting Informative Memories for Visual Navigation [43.185016165039116]
画像ゴールナビゲーションのための新しいメモリ機構であるMemoNavを提案する。
MemoNavは、ナビゲーション性能を改善するために、エージェントの情報的短期記憶と長期記憶を保持する。
我々は、新しいマルチゴールナビゲーションデータセットでモデルを評価する。
論文 参考訳(メタデータ) (2022-08-20T05:57:21Z) - Object Memory Transformer for Object Goal Navigation [10.359616364592075]
本稿では,物体目標ナビゲーション(Nav)のための強化学習手法を提案する。
エージェントは3次元屋内環境をナビゲートし、対象物やシーンの長期観察に基づいて対象物に到達する。
私たちの知る限りでは、ゴール指向ナビゲーションタスクにおけるオブジェクトセマンティクスの長期記憶を利用する最初の作業である。
論文 参考訳(メタデータ) (2022-03-24T09:16:56Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。