論文の概要: LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation
- arxiv url: http://arxiv.org/abs/2510.24118v1
- Date: Tue, 28 Oct 2025 06:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.178662
- Title: LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation
- Title(参考訳): LagMemo:マルチモーダルオープン言語多言語ビジュアルナビゲーションのための言語3Dガウススプラッティングメモリ
- Authors: Haotian Zhou, Xiaole Wang, He Li, Fusheng Sun, Shengyu Guo, Guolei Qi, Jianghuan Xu, Huijing Zhao,
- Abstract要約: LagMemoはマルチモーダルでオープンなゴールクエリとマルチゴールビジュアルナビゲーションのためのナビゲーションシステムである。
探索中、LagMemoは統一された3D言語メモリを構築する。
タスクのゴールが届くと、システムはメモリをクエリし、候補のゴール位置を予測し、ローカルな認識に基づく検証メカニズムを統合する。
- 参考スコア(独自算出の注目度): 8.948489682917732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigating to a designated goal using visual information is a fundamental capability for intelligent robots. Most classical visual navigation methods are restricted to single-goal, single-modality, and closed set goal settings. To address the practical demands of multi-modal, open-vocabulary goal queries and multi-goal visual navigation, we propose LagMemo, a navigation system that leverages a language 3D Gaussian Splatting memory. During exploration, LagMemo constructs a unified 3D language memory. With incoming task goals, the system queries the memory, predicts candidate goal locations, and integrates a local perception-based verification mechanism to dynamically match and validate goals during navigation. For fair and rigorous evaluation, we curate GOAT-Core, a high-quality core split distilled from GOAT-Bench tailored to multi-modal open-vocabulary multi-goal visual navigation. Experimental results show that LagMemo's memory module enables effective multi-modal open-vocabulary goal localization, and that LagMemo outperforms state-of-the-art methods in multi-goal visual navigation. Project page: https://weekgoodday.github.io/lagmemo
- Abstract(参考訳): 視覚情報を用いて指定された目標にナビゲートすることは、インテリジェントロボットの基本的な能力である。
ほとんどの古典的なビジュアルナビゲーション手法は、単一のゴール、単一のモダリティ、クローズドセットのゴール設定に制限されている。
マルチモーダルなオープンボキャブラリーゴールクエリとマルチゴールビジュアルナビゲーションの現実的な要求に対処するために,言語3Dガウススプラッティングメモリを活用したナビゲーションシステムであるLagMemoを提案する。
探索中、LagMemoは統一された3D言語メモリを構築する。
タスクのゴールが届くと、システムはメモリをクエリし、候補のゴール位置を予測し、ローカルの認識に基づく検証メカニズムを統合して、ナビゲーション中のゴールを動的にマッチングし、検証する。
広範かつ厳密な評価のために,GOAT-Benchから抽出した高品質なコア分割であるGOAT-Coreをマルチモーダルなオープン・ボキャブラリ・マルチゴールビジュアルナビゲーションに適合させる。
実験結果から,LagMemoのメモリモジュールは,効率的なマルチモーダルなオープンボキャブラリゴールローカライゼーションを実現し,マルチゴール視覚ナビゲーションにおける最先端手法よりも優れた性能を示した。
プロジェクトページ:https://weekgoodday.github.io/lagmemo
関連論文リスト
- JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation [22.956416709470503]
Vision-and-Language Navigationでは、自然言語命令と連続的なビデオストリームによってガイドされた、目に見えない環境をナビゲートするために、エンボディエージェントが必要である。
VLNの最近の進歩は、マルチモーダル大規模言語モデルの強力な意味理解によって推進されている。
本稿では,空間幾何学的,視覚的セマンティックメモリを分離,コンパクト,固定サイズのニューラル表現としてモデル化した,二重暗黙的ニューラルメモリを備えた新しいVLNフレームワークであるJanusVLNを提案する。
論文 参考訳(メタデータ) (2025-09-26T16:29:37Z) - MLFM: Multi-Layered Feature Maps for Richer Language Understanding in Zero-Shot Semantic Navigation [25.63797039823049]
LangNavはオープンソースのマルチオブジェクトナビゲーションデータセットで、自然言語のゴール記述がある。
MLFMは、事前訓練された視覚言語機能からクエリ可能な多層セマンティックマップを構築する。
LangNavの実験では、MLFMは最先端のゼロショットマッピングベースのナビゲーションベースラインを上回っている。
論文 参考訳(メタデータ) (2025-07-09T21:46:43Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Vision-Dialog Navigation by Exploring Cross-modal Memory [107.13970721435571]
視覚ダイアログナビゲーションは、視覚言語ディシプリナターゲットの新たな聖杯タスクとして機能する。
本稿では,歴史的ナビゲーション行動に関連する豊富な情報を記憶し,理解するためのクロスモーダルメモリネットワーク(CMN)を提案する。
私たちのCMNは、従来の最先端モデルよりも、目に見える環境と目に見えない環境の両方で大きな差があります。
論文 参考訳(メタデータ) (2020-03-15T03:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。