論文の概要: CLUE: Adaptively Prioritized Contextual Cues by Leveraging a Unified Semantic Map for Effective Zero-Shot Object-Goal Navigation
- arxiv url: http://arxiv.org/abs/2605.19206v1
- Date: Tue, 19 May 2026 00:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.036627
- Title: CLUE: Adaptively Prioritized Contextual Cues by Leveraging a Unified Semantic Map for Effective Zero-Shot Object-Goal Navigation
- Title(参考訳): CLUE: 効率的なゼロショットオブジェクトゴールナビゲーションのための統一セマンティックマップの活用によるコンテキストキューの適応的優先順位付け
- Authors: Taeyun Kim, Alvin Jinsung Choi, Dasol Hong, Hyun Myung,
- Abstract要約: 部屋や物体からの文脈的手がかりは重要であるが、それらの相対的重要性はターゲットに依存している。
本稿では,コンテキスト空間やオブジェクトの利用を適応的にバランスさせる新しいナビゲーションフレームワークであるCLUEを紹介する。
我々のフレームワークは、両方の種類の文脈情報を統合した統合意味値マップを構築する。
- 参考スコア(独自算出の注目度): 8.756342403405204
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Zero-shot object-goal navigation (ZSON) is a challenging problem in robotics that requires a comprehensive understanding of both language and visual observations. Contextual cues from rooms and objects are critical, but their relative importance depends on the target: some objects are strongly tied to specific room types, while others are better predicted by nearby co-located objects. Existing methods overlook this distinction, leading to inefficient and inaccurate exploration. We present CLUE, a novel navigation framework that adaptively balances the use of contextual rooms and objects by leveraging commonsense knowledge extracted from an offline large language model (LLM). By estimating a target's association with room types using LLM, the agent prioritizes room cues for predictable objects and object cues for those with weak room associations. Our framework constructs a unified semantic value map that integrates both types of contextual information, adaptively weighted by the target's ambiguity to guide exploration. Combined with multi-viewpoint verification and an exploration strategy informed by contextual cues, CLUE achieves robust and efficient navigation. Extensive experiments in simulation and real-world deployments show that our method consistently outperforms state-of-the-art baselines in both success rate (SR) and success weighted by path length (SPL), demonstrating its effectiveness and practicality for real-world navigation tasks.
- Abstract(参考訳): ゼロショット・オブジェクトゴールナビゲーション(ZSON)は、ロボット工学において言語と視覚の両方を包括的に理解する必要がある難しい問題である。
部屋や物体からの文脈的手がかりは重要であるが、それらの相対的な重要性はターゲットに依存している。
既存の手法はこの区別を覆し、非効率で不正確な探索につながった。
本稿では,オフラインの大規模言語モデル(LLM)から抽出したコモンセンス知識を活用することで,コンテキストルームやオブジェクトの使用を適応的にバランスさせる新しいナビゲーションフレームワークであるCLUEを提案する。
LLMを用いて、目標と室型との関係を推定することにより、弱い室型に対して予測可能な対象と対象とを優先する。
本フレームワークは,対象のあいまいさに適応的に重み付けされて探索をガイドする,両方の種類の文脈情報を統合した統合意味値マップを構築する。
多視点検証と文脈的手がかりによる探索戦略を組み合わせることで、CLUEは堅牢で効率的なナビゲーションを実現する。
シミュレーションおよび実世界の展開における大規模な実験により、我々の手法は成功率(SR)と経路長(SPL)の重み付けの成功の両方において、常に最先端のベースラインを上回り、実世界のナビゲーションタスクの有効性と実用性を示す。
関連論文リスト
- Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search [14.297888615008041]
SCOUT: Scene Graph-Based Exploration with Learned Utility for Open-World Interactive Object Searchを紹介する。
SCOUTは部屋、フロンティア、オブジェクトにユーティリティスコアを割り当てることで、3Dシーングラフを直接検索する。
対話型オブジェクト検索タスクにおける意味的推論を評価するためのスケーラブルなシンボリックベンチマークであるSymSearchを提案する。
論文 参考訳(メタデータ) (2026-03-05T19:52:26Z) - A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:04:54Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z) - Learning hierarchical relationships for object-goal navigation [7.074818959144171]
室内におけるナビゲーションのためのメモリ利用共同階層型物体学習(MJOLNIR)を提案する。
MJOLNIRはターゲット駆動ナビゲーションアルゴリズムであり、ターゲットオブジェクトと周囲に存在するより健全なコンテキストオブジェクトの間に固有の関係を考察する。
我々のモデルは、よく知られた過適合問題に悩まされることなく、他のアルゴリズムよりもはるかに早く収束することを学ぶ。
論文 参考訳(メタデータ) (2020-03-15T04:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。