論文の概要: PIGEON: VLM-Driven Object Navigation via Points of Interest Selection
- arxiv url: http://arxiv.org/abs/2511.13207v1
- Date: Mon, 17 Nov 2025 10:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.123421
- Title: PIGEON: VLM-Driven Object Navigation via Points of Interest Selection
- Title(参考訳): PIGEON:関心点選択によるVLM駆動オブジェクトナビゲーション
- Authors: Cheng Peng, Zhenzhe Zhang, Cheng Chi, Xiaobao Wei, Yanhao Zhang, Heng Wang, Pengwei Wang, Zhongyuan Wang, Jing Liu, Shanghang Zhang,
- Abstract要約: 視覚言語モデル(VLM)を用いたオブジェクトナビゲーションのための興味あるガイド探索点PIGEONを提案する。
我々は、PIGEON-VLと呼ばれる大規模な視覚言語モデル(VLM)を用いて、探索中に形成された関心のポイント(PoI)を選択し、次に低レベルのプランナーを用いて行動出力を行い、決定頻度を増大させる。
従来のオブジェクトナビゲーションベンチマークの実験では、我々のゼロショット転送方式は最先端のパフォーマンスを達成する一方、RLVRはモデルのセマンティックガイダンス機能をさらに強化し、リアルタイムナビゲーションにおける深い推論を可能にしている。
- 参考スコア(独自算出の注目度): 50.77437819030925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigating to a specified object in an unknown environment is a fundamental yet challenging capability of embodied intelligence. However, current methods struggle to balance decision frequency with intelligence, resulting in decisions lacking foresight or discontinuous actions. In this work, we propose PIGEON: Point of Interest Guided Exploration for Object Navigation with VLM, maintaining a lightweight and semantically aligned snapshot memory during exploration as semantic input for the exploration strategy. We use a large Visual-Language Model (VLM), named PIGEON-VL, to select Points of Interest (PoI) formed during exploration and then employ a lower-level planner for action output, increasing the decision frequency. Additionally, this PoI-based decision-making enables the generation of Reinforcement Learning with Verifiable Reward (RLVR) data suitable for simulators. Experiments on classic object navigation benchmarks demonstrate that our zero-shot transfer method achieves state-of-the-art performance, while RLVR further enhances the model's semantic guidance capabilities, enabling deep reasoning during real-time navigation.
- Abstract(参考訳): 未知の環境で特定のオブジェクトにナビゲートすることは、インテリジェンスを具現化する基本的な能力である。
しかし、現在の手法では、意思決定頻度と知性とのバランスがとれないため、前向きな行動や不連続な行動が欠如している。
本稿では,本研究で提案するPIGEON:Point of Interest Guided Exploration for Object Navigation with VLMを提案する。
我々は、PIGEON-VLと呼ばれる大規模な視覚言語モデル(VLM)を用いて、探索中に形成された関心のポイント(PoI)を選択し、次に低レベルのプランナーを用いて行動出力を行い、決定頻度を増大させる。
さらに、このPoIベースの意思決定により、シミュレータに適したReinforcement Learning with Verifiable Reward(RLVR)データを生成することができる。
従来のオブジェクトナビゲーションベンチマークの実験では、我々のゼロショット転送方式は最先端のパフォーマンスを達成する一方、RLVRはモデルのセマンティックガイダンス機能をさらに強化し、リアルタイムナビゲーションにおける深い推論を可能にしている。
関連論文リスト
- History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:04:54Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。