論文の概要: ImagineNav++: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination
- arxiv url: http://arxiv.org/abs/2512.17435v2
- Date: Thu, 08 Jan 2026 12:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.425442
- Title: ImagineNav++: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination
- Title(参考訳): ImagineNav++: シーンのイマジネーションを通じて、視覚-言語モデルを身体的ナビゲータとしてプロンプトする
- Authors: Teng Wang, Xinxin Zhao, Wenzhe Cai, Changyin Sun,
- Abstract要約: VLM(Vision-Language Models)は、オンボードのRGB/RGB-Dストリームのみを使用してマップレスなビジュアルナビゲーションを実現し、空間的な知覚と計画の可能性を解き放つ。
我々はこれを、想像力によるナビゲーションフレームワークImagineNav++で実現している。
空間的整合性を維持するため,スパース・トゥ・デンス・フレームワークによる観測を階層的に統合する選択的葉形成記憶機構を開発した。
- 参考スコア(独自算出の注目度): 36.489349671649045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual navigation is a fundamental capability for autonomous home-assistance robots, enabling long-horizon tasks such as object search. While recent methods have leveraged Large Language Models (LLMs) to incorporate commonsense reasoning and improve exploration efficiency, their planning remains constrained by textual representations, which cannot adequately capture spatial occupancy or scene geometry--critical factors for navigation decisions. We explore whether Vision-Language Models (VLMs) can achieve mapless visual navigation using only onboard RGB/RGB-D streams, unlocking their potential for spatial perception and planning. We achieve this through an imagination-powered navigation framework, ImagineNav++, which imagines future observation images from candidate robot views and translates navigation planning into a simple best-view image selection problem for VLMs. First, a future-view imagination module distills human navigation preferences to generate semantically meaningful viewpoints with high exploration potential. These imagined views then serve as visual prompts for the VLM to identify the most informative viewpoint. To maintain spatial consistency, we develop a selective foveation memory mechanism, which hierarchically integrates keyframe observations via a sparse-to-dense framework, constructing a compact yet comprehensive memory for long-term spatial reasoning. This approach transforms goal-oriented navigation into a series of tractable point-goal navigation tasks. Extensive experiments on open-vocabulary object and instance navigation benchmarks show that ImagineNav++ achieves SOTA performance in mapless settings, even surpassing most map-based methods, highlighting the importance of scene imagination and memory in VLM-based spatial reasoning.
- Abstract(参考訳): 視覚ナビゲーションは自律型ホームアシストロボットの基本的な機能であり、オブジェクト探索のような長距離タスクを可能にする。
近年,Large Language Models (LLMs) を用いて常識推論を取り入れ,探索効率を向上する手法が提案されているが,その計画にはテキスト表現による制約が残っており,空間的占有度やシーン形状を適切に把握できない。
本稿では,RGB/RGB-Dストリームのみを用いたマップレス視覚ナビゲーションを実現するために,視覚言語モデル(VLM)が空間認識と計画の可能性を秘めているかどうかを考察する。
提案手法は,ロボットビューからの将来の観察画像を想像し,ナビゲーション計画からVLMの単純なベストビュー画像選択問題へと変換する。
先見想像モジュールは、人間のナビゲーション嗜好を蒸留し、探索可能性の高い意味的に意味のある視点を生成する。
これらの想像されたビューは、VLMが最も有益な視点を特定するための視覚的なプロンプトとして機能する。
空間的整合性を維持するため,長期的空間推論のためのコンパクトで包括的メモリを構築するために,スパース・トゥ・デンス・フレームワークを介してキーフレームの観測を階層的に統合する選択的フェーベーションメモリ機構を開発した。
このアプローチは、ゴール指向ナビゲーションを一連のトラクタブルなポイントゴールナビゲーションタスクに変換する。
オープン語彙オブジェクトとインスタンスナビゲーションベンチマークに関する大規模な実験は、ImagineNav++が地図のない環境でSOTAのパフォーマンスを達成し、ほとんどのマップベースのメソッドを越え、VLMベースの空間推論におけるシーンの想像力とメモリの重要性を強調していることを示している。
関連論文リスト
- OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - YOPO-Nav: Visual Navigation using 3DGS Graphs from One-Pass Videos [5.7772802828964664]
本稿では,環境を3次元ガウススプラッティング(3DGS)モデルと相互接続した空間表現に符号化するYOPO-Navを提案する。
ナビゲーション中、このフレームワークはロボットの現在の視覚的観察をこの表現と整列させ、それを実証された軌道に戻す行動を予測する。
本稿では,Clearpath Jackal ロボットを用いた YOPO-Campus のトラジェクトリに対する最近の視覚ナビゲーション手法のベンチマークを行った。
論文 参考訳(メタデータ) (2025-12-10T18:32:38Z) - FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Pathdreamer: A World Model for Indoor Navigation [62.78410447776939]
本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。
過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。
不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
論文 参考訳(メタデータ) (2021-05-18T18:13:53Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。