論文の概要: RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation
- arxiv url: http://arxiv.org/abs/2512.24212v1
- Date: Tue, 30 Dec 2025 13:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.385651
- Title: RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation
- Title(参考訳): RANGER:コンテキスト適応による単眼ゼロショットセマンティックナビゲーションフレームワーク
- Authors: Ming-Ming Yu, Yi Chen, Börje F. Karlsson, Wenjun Wu,
- Abstract要約: RANGERは、モノクロカメラのみを使用して動作する、ゼロショットでオープンなセマンティックナビゲーションフレームワークである。
新しい環境の短いビデオを単純に観察することで、アーキテクチャの変更や微調整を必要とせずにタスク効率を大幅に改善することができる。
HM3Dベンチマークと実世界の環境実験により、RANGERは航法成功率と探索効率の点で競争性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 9.379574254353352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently finding targets in complex environments is fundamental to real-world embodied applications. While recent advances in multimodal foundation models have enabled zero-shot object goal navigation, allowing robots to search for arbitrary objects without fine-tuning, existing methods face two key limitations: (1) heavy reliance on precise depth and pose information provided by simulators, which restricts applicability in real-world scenarios; and (2) lack of in-context learning (ICL) capability, making it difficult to quickly adapt to new environments, as in leveraging short videos. To address these challenges, we propose RANGER, a novel zero-shot, open-vocabulary semantic navigation framework that operates using only a monocular camera. Leveraging powerful 3D foundation models, RANGER eliminates the dependency on depth and pose while exhibiting strong ICL capability. By simply observing a short video of a new environment, the system can also significantly improve task efficiency without requiring architectural modifications or fine-tuning. The framework integrates several key components: keyframe-based 3D reconstruction, semantic point cloud generation, vision-language model (VLM)-driven exploration value estimation, high-level adaptive waypoint selection, and low-level action execution. Experiments on the HM3D benchmark and real-world environments demonstrate that RANGER achieves competitive performance in terms of navigation success rate and exploration efficiency, while showing superior ICL adaptability, with no previous 3D mapping of the environment required.
- Abstract(参考訳): 複雑な環境でターゲットを効果的に見つけることは、現実世界の具体化アプリケーションの基本である。
近年のマルチモーダルファウンデーションモデルの進歩により、ロボットが微調整なしで任意の物体を探索できるようなゼロショットオブジェクトゴールナビゲーションが可能になったが、既存の手法では、(1)精密な深度への依存と、実世界のシナリオにおける適用性を制限するシミュレータが提供する情報の提供、(2)コンテキスト内学習(ICL)能力の欠如により、ショートビデオの活用など、新しい環境への迅速な適応が困難である、という2つの重要な制限に直面している。
これらの課題に対処するために、単眼カメラのみを使用して動作する新しいゼロショットでオープンなセマンティックナビゲーションフレームワークであるRANGERを提案する。
強力な3Dファウンデーションモデルを活用することで、RANGERは深度への依存を排除し、強力なICL能力を示しながらポーズする。
新しい環境の短いビデオを単純に観察することで、アーキテクチャの変更や微調整を必要とせずにタスク効率を大幅に改善することができる。
このフレームワークは、キーフレームベースの3D再構成、セマンティックポイントクラウド生成、視覚言語モデル(VLM)による探索値推定、高レベルの適応的ウェイポイント選択、低レベルのアクション実行など、いくつかの重要なコンポーネントを統合している。
HM3Dベンチマークと実世界の環境実験により、RANGERは航法成功率と探索効率の点で競争力を発揮しつつ、環境の3Dマッピングを必要とせず、優れたICL適応性を示した。
関連論文リスト
- Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation [52.00474922315126]
未確認環境のための視覚言語ナビゲーションフレームワークであるVLN-Zeroを提案する。
我々は視覚言語モデルを用いて、記号的なシーングラフを効率的に構築し、ゼロショットのニューロシンボリックナビゲーションを可能にする。
VLN-Zeroは、最先端のゼロショットモデルと比べて2倍の成功率を獲得し、最も微調整されたベースラインを上回り、半分の時間でゴール地点に達する。
論文 参考訳(メタデータ) (2025-09-23T03:23:03Z) - TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals [10.69725316052444]
ゼロショット・ロングホライゾン・ロボットナビゲーションを可能にする新しいRGBのみのオブジェクトレベルのトポロジカルナビゲーションパイプラインを提案する。
提案手法は,グローバルなトポロジカルパス計画と局所的軌跡制御を統合し,障害物を避けつつ,ロボットがオブジェクトレベルのサブゴールに向かって移動できるようにする。
シミュレーション環境と実世界の両方のテストにおいて,本手法の有効性を実証し,その堅牢性とデプロイ性を強調した。
論文 参考訳(メタデータ) (2025-09-10T15:43:32Z) - SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:04:54Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - ATLASv2: LLM-Guided Adaptive Landmark Acquisition and Navigation on the Edge [0.5243460995467893]
ATLASv2は、細調整されたTinyLLM、リアルタイムオブジェクト検出、効率的な経路計画を統合する新しいシステムである。
我々はATLASv2を実環境において評価し、様々な物やランドマークで構築された手作りの住宅やオフィス環境について検討した。
結果は,ATLASv2が自然言語命令を効果的に解釈し,それらを低レベルなアクションに分解し,高い成功率でタスクを実行することを示す。
論文 参考訳(メタデータ) (2025-04-15T00:55:57Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。