論文の概要: PanoNav: Mapless Zero-Shot Object Navigation with Panoramic Scene Parsing and Dynamic Memory
- arxiv url: http://arxiv.org/abs/2511.06840v1
- Date: Mon, 10 Nov 2025 08:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.163043
- Title: PanoNav: Mapless Zero-Shot Object Navigation with Panoramic Scene Parsing and Dynamic Memory
- Title(参考訳): PanoNav: パノラマシーン解析と動的メモリを備えたマップレスゼロショットオブジェクトナビゲーション
- Authors: Qunchao Jin, Yilin Wu, Changhao Chen,
- Abstract要約: 目に見えない環境でのゼロショットオブジェクトナビゲーション(ZSON)は、家庭用ロボットにとって難しい問題である。
本稿では,Panomic Scene Parsingモジュールとメモリ誘導決定機構を統合した,完全なRGBのみのマップレスZSONフレームワークであるPanoNavを提案する。
公開ナビゲーションベンチマークの実験では、PanoNavはSRとSPLの両方で代表ベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 9.646315233482973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot object navigation (ZSON) in unseen environments remains a challenging problem for household robots, requiring strong perceptual understanding and decision-making capabilities. While recent methods leverage metric maps and Large Language Models (LLMs), they often depend on depth sensors or prebuilt maps, limiting the spatial reasoning ability of Multimodal Large Language Models (MLLMs). Mapless ZSON approaches have emerged to address this, but they typically make short-sighted decisions, leading to local deadlocks due to a lack of historical context. We propose PanoNav, a fully RGB-only, mapless ZSON framework that integrates a Panoramic Scene Parsing module to unlock the spatial parsing potential of MLLMs from panoramic RGB inputs, and a Memory-guided Decision-Making mechanism enhanced by a Dynamic Bounded Memory Queue to incorporate exploration history and avoid local deadlocks. Experiments on the public navigation benchmark show that PanoNav significantly outperforms representative baselines in both SR and SPL metrics.
- Abstract(参考訳): 目に見えない環境でのゼロショットオブジェクトナビゲーション(ZSON)は、知覚的理解と意思決定能力を必要とする家庭用ロボットにとって難しい問題である。
近年の手法ではメートル法やLarge Language Models (LLMs) を利用するが、深度センサやプレビルドマップに依存し、MLLM(Multimodal Large Language Models)の空間的推論能力を制限していることが多い。
マップレスZSONアプローチはこの問題に対処するために登場したが、通常は短目で決定されるため、歴史的文脈の欠如により局所的なデッドロックが発生する。
パノラマRGB入力からMLLMの空間解析能力を解放するためにパノラマScene Parsingモジュールを統合した完全なRGBのみのマップレスZSONフレームワークであるPanoNavと、ダイナミックバウンドメモリキューによって強化されたメモリ誘導決定機構を提案し、探索履歴を組み込んで局所的なデッドロックを回避する。
公開ナビゲーションベンチマークの実験では、PanoNavはSRとSPLの両方で代表ベースラインを大幅に上回っている。
関連論文リスト
- MSNav: Zero-Shot Vision-and-Language Navigation with Dynamic Memory and LLM Spatial Reasoning [34.08837799906451]
VLN(Vision-and-Language Navigation)は、自然言語の命令を解釈し、複雑な環境をナビゲートするエージェントである。
現在のアプローチでは、単一の大規模言語モデル(LLM)がエンドツーエンドで決定する、"ブラックボックス"パラダイムを採用することが多い。
3つのモジュールを相乗的アーキテクチャに融合するフレームワークであるメモリ空間ナビゲーション(MSNav)を提案する。
論文 参考訳(メタデータ) (2025-08-20T05:41:22Z) - Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System [9.687946545604492]
大規模都市環境における視覚・言語ナビゲーション (VLN) は、複雑な場面で言語指導を行うための具体的エージェントを必要とする。
階層型空間認識長短メモリシステムである textbfMem4Nav を導入し,任意のVLNバックボーンを拡張できる。
論文 参考訳(メタデータ) (2025-06-24T09:00:43Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。