論文の概要: MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory
- arxiv url: http://arxiv.org/abs/2511.22609v1
- Date: Thu, 27 Nov 2025 16:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.650747
- Title: MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory
- Title(参考訳): MG-Nav:スパース空間記憶によるデュアルスケールビジュアルナビゲーション
- Authors: Bo Wang, Jiehong Lin, Chenzhi Liu, Xinting Hu, Yifei Yu, Tianjia Liu, Zhongrui Wang, Xiaojuan Qi,
- Abstract要約: MG-Navは、ゼロショットビジュアルナビゲーションのためのデュアルスケールフレームワークである。
グローバルメモリ誘導計画と局所的幾何学的制御を統一する。
- 参考スコア(独自算出の注目度): 31.442399437713547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MG-Nav (Memory-Guided Navigation), a dual-scale framework for zero-shot visual navigation that unifies global memory-guided planning with local geometry-enhanced control. At its core is the Sparse Spatial Memory Graph (SMG), a compact, region-centric memory where each node aggregates multi-view keyframe and object semantics, capturing both appearance and spatial structure while preserving viewpoint diversity. At the global level, the agent is localized on SMG and a goal-conditioned node path is planned via an image-to-instance hybrid retrieval, producing a sequence of reachable waypoints for long-horizon guidance. At the local level, a navigation foundation policy executes these waypoints in point-goal mode with obstacle-aware control, and switches to image-goal mode when navigating from the final node towards the visual target. To further enhance viewpoint alignment and goal recognition, we introduce VGGT-adapter, a lightweight geometric module built on the pre-trained VGGT model, which aligns observation and goal features in a shared 3D-aware space. MG-Nav operates global planning and local control at different frequencies, using periodic re-localization to correct errors. Experiments on HM3D Instance-Image-Goal and MP3D Image-Goal benchmarks demonstrate that MG-Nav achieves state-of-the-art zero-shot performance and remains robust under dynamic rearrangements and unseen scene conditions.
- Abstract(参考訳): MG-Nav (Memory-Guided Navigation, メモリガイドナビゲーション) は, 局所的な幾何学的制御とグローバルなメモリ誘導計画を統合する, ゼロショットビジュアルナビゲーションのための2段階のフレームワークである。
SMGはコンパクトで領域中心のメモリで、各ノードは多視点キーフレームとオブジェクトセマンティクスを集約し、視点の多様性を維持しながら外観と空間構造の両方をキャプチャする。
世界レベルでは、エージェントはSMG上にローカライズされ、ゴール条件付きノードパスは画像とインスタンス間のハイブリッド検索によって計画され、長い水平誘導のための到達可能なウェイポイントのシーケンスを生成する。
ローカルレベルでは、ナビゲーションファウンデーションポリシーが障害物対応制御付きポイントゴールモードでこれらのウェイポイントを実行し、最終ノードから視覚目標に向かってナビゲートする際にイメージゴールモードに切り替える。
視線アライメントと目標認識をさらに強化するために,事前学習されたVGGTモデル上に構築された軽量な幾何学モジュールであるVGGT-adapterを導入する。
MG-Navは、周期的な再ローカライゼーションを使用してエラーを修正することで、異なる周波数でグローバルプランニングとローカル制御を実行する。
HM3D Instance-Image-Goal と MP3D Image-Goal ベンチマークの実験では、MG-Nav が最先端のゼロショットのパフォーマンスを達成し、動的再構成や見えないシーン条件下では堅牢であることが示された。
関連論文リスト
- IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation [78.00035681410348]
IGL-Navは、効率的で3D対応の画像ゴールナビゲーションのためのインクリメンタルな3Dガウスフレームワークである。
より困難な自由視点のイメージゴール設定を処理し、現実世界のロボットプラットフォームにデプロイすることができる。
論文 参考訳(メタデータ) (2025-08-01T17:59:56Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - Reinforced Structured State-Evolution for Vision-Language Navigation [42.46176089721314]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクは、自然言語の指示に従って遠隔地へ移動するための実施エージェントを必要とする。
従来の手法は通常、シークエンスモデル(TransformerやLSTMなど)をナビゲータとして採用していた。
本稿では,VLNの環境レイアウトの手がかりを効果的に維持するために,構造化状態進化(SEvol)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-20T07:51:20Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - SGoLAM: Simultaneous Goal Localization and Mapping for Multi-Object Goal
Navigation [5.447924312563365]
マルチオブジェクトゴールナビゲーションのためのシンプルで効率的なアルゴリズムであるSGoLAMを提案する。
RGB-DカメラとGPS/センサーを装備したエージェントを前提として,現実的な3D環境下でターゲットオブジェクトの列に移動させることが目的である。
SGoLAMはCVPR 2021 MultiON(Multi-Object Goal Navigation)の2位にランクインしている。
論文 参考訳(メタデータ) (2021-10-14T06:15:14Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。