論文の概要: ReMemNav: A Rethinking and Memory-Augmented Framework for Zero-Shot Object Navigation
- arxiv url: http://arxiv.org/abs/2603.26788v1
- Date: Wed, 25 Mar 2026 09:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.608611
- Title: ReMemNav: A Rethinking and Memory-Augmented Framework for Zero-Shot Object Navigation
- Title(参考訳): ReMemNav: ゼロショットオブジェクトナビゲーションのための再考とメモリ拡張フレームワーク
- Authors: Feng Wu, Wei Zuo, Wenliang Yang, Jun Xiao, Yang Liu, Xinhua Zeng,
- Abstract要約: ゼロショットオブジェクトナビゲーションでは、エージェントは未知のターゲットオブジェクトを未知の環境で見つける必要がある。
視覚言語モデルの最近の進歩は、このタスクに有望な常識推論機能を提供する。
本稿では,パノラマ的セマンティック先行とエピソード記憶をシームレスに統合するReMemNavという新しい階層型ナビゲーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.416693138335354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot object navigation requires agents to locate unseen target objects in unfamiliar environments without prior maps or task-specific training which remains a significant challenge. Although recent advancements in vision-language models(VLMs) provide promising commonsense reasoning capabilities for this task, these models still suffer from spatial hallucinations, local exploration deadlocks, and a disconnect between high-level semantic intent and low-level control. In this regard, we propose a novel hierarchical navigation framework named ReMemNav, which seamlessly integrates panoramic semantic priors and episodic memory with VLMs. We introduce the Recognize Anything Model to anchor the spatial reasoning process of the VLM. We also design an adaptive dual-modal rethinking mechanism based on an episodic semantic buffer queue. The proposed mechanism actively verifies target visibility and corrects decisions using historical memory to prevent deadlocks. For low-level action execution, ReMemNav extracts a sequence of feasible actions using depth masks, allowing the VLM to select the optimal action for mapping into actual spatial movement. Extensive evaluations on HM3D and MP3D demonstrate that ReMemNav outperforms existing training-free zero-shot baselines in both success rate and exploration efficiency. Specifically, we achieve significant absolute performance improvements, with SR and SPL increasing by 1.7% and 7.0% on HM3D v0.1, 18.2% and 11.1% on HM3D v0.2, and 8.7% and 7.9% on MP3D.
- Abstract(参考訳): ゼロショットオブジェクトナビゲーションでは、エージェントは、事前のマップやタスク固有のトレーニングを使わずに、未知のターゲットオブジェクトを未知の環境で見つける必要がある。
視覚言語モデル(VLM)の最近の進歩は、このタスクに有望なコモンセンス推論機能を提供しているが、これらのモデルは、空間幻覚、局所的な探索デッドロック、高レベルの意味的意図と低レベルの制御の切り離しに悩まされている。
本稿では,パノラマ的セマンティック先行とエピソードメモリをVLMとシームレスに統合する,ReMemNavという新しい階層型ナビゲーションフレームワークを提案する。
本稿では、VLMの空間的推論過程をアンロックするために、認識任意のモデルを導入する。
また、エピソディックなセマンティックバッファーキューに基づいて、適応的なデュアルモーダル再考機構を設計する。
提案機構は,対象の視認性を積極的に検証し,過去の記憶を用いて決定を正してデッドロックを防ぐ。
低レベルのアクション実行のために、ReMemNavはディープマスクを使用して実行可能なアクションのシーケンスを抽出し、VLMは実際の空間運動にマッピングするための最適なアクションを選択することができる。
HM3DとMP3Dの大規模な評価は、ReMemNavが既存のトレーニングなしゼロショットベースラインを成功率と探索効率の両方で上回っていることを示している。
具体的には,HM3D v0.1ではSRとSPLが1.7%増加し,HM3D v0.2では18.2%,11.1%,MP3Dでは8.7%,SPLが7.9%向上した。
関連論文リスト
- DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion [2.061143628317803]
最近の視覚言語アクション(VLA)モデルは、視覚入力から直接アクションを推測するが、膨大な計算資源を必要とする。
本稿では,画像空間の拡散を統一的に行うことで,距離空間のナビゲーションとセンチメートルの操作を両立させる。
このモデルは、新規シーンへの堅牢なゼロショットの一般化を実現しつつ、オンボード展開に適している。
論文 参考訳(メタデータ) (2026-03-27T11:40:13Z) - 3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。
3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。
ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文 参考訳(メタデータ) (2026-02-12T16:41:26Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。