論文の概要: Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation
- arxiv url: http://arxiv.org/abs/2603.09506v1
- Date: Tue, 10 Mar 2026 11:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.246009
- Title: Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation
- Title(参考訳): Context-Nav: インスタンスナビゲーションのためのコンテキスト駆動探索と視点対応3次元空間推論
- Authors: Won Shik Jang, Ue-Hwan Kim,
- Abstract要約: Text-goal instance navigation (TGIN)は、エージェントに単一の自由形式の記述を正しいオブジェクトインスタンスに到達するアクションに解決するよう要求する。
ローカルキューからグローバルな探索に先立ってコンテキストキャプションを上昇させ、3次元空間推論により候補を検証するtextitContext-Nav を提案する。
- 参考スコア(独自算出の注目度): 4.039245878626346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-goal instance navigation (TGIN) asks an agent to resolve a single, free-form description into actions that reach the correct object instance among same-category distractors. We present \textit{Context-Nav} that elevates long, contextual captions from a local matching cue to a global exploration prior and verifies candidates through 3D spatial reasoning. First, we compute dense text-image alignments for a value map that ranks frontiers -- guiding exploration toward regions consistent with the entire description rather than early detections. Second, upon observing a candidate, we perform a viewpoint-aware relation check: the agent samples plausible observer poses, aligns local frames, and accepts a target only if the spatial relations can be satisfied from at least one viewpoint. The pipeline requires no task-specific training or fine-tuning; we attain state-of-the-art performance on InstanceNav and CoIN-Bench. Ablations show that (i) encoding full captions into the value map avoids wasted motion and (ii) explicit, viewpoint-aware 3D verification prevents semantically plausible but incorrect stops. This suggests that geometry-grounded spatial reasoning is a scalable alternative to heavy policy training or human-in-the-loop interaction for fine-grained instance disambiguation in cluttered 3D scenes.
- Abstract(参考訳): Text-goal instance navigation (TGIN) は、エージェントに対して、同じカテゴリ内の正しいオブジェクトインスタンスに到達するアクションに対して、単一の自由形式の記述を解決するように要求する。
局所的なマッチングキューからグローバルな探索までの長い文脈的キャプションを増大させ、3次元空間的推論による候補の検証を行う。
まず、フロンティアをランク付けする値マップの高密度なテキストイメージアライメントを計算します。
第2に、候補を観察する際に、視点対応関係チェックを行う: エージェントは、少なくとも一つの視点から空間的関係を満足できる場合に限り、可視的観察者のポーズをサンプリングし、局所的なフレームをアライメントし、ターゲットを受け入れる。
パイプラインはタスク固有のトレーニングや微調整を必要とせず、InstanceNavとCoIN-Benchで最先端のパフォーマンスを実現しています。
アブレーションは
i) フルキャプションを値マップにエンコードすることで、無駄な動きを回避し、
(II)明快で視点対応の3D検証は意味論的に検証可能であるが、誤った停止を防ぐ。
このことは、幾何学的空間推論が、粗い3Dシーンにおけるきめ細かいインスタンスの曖昧さに対する重度ポリシートレーニングやヒューマン・イン・ザ・ループの相互作用に代わるスケーラブルな代替手段であることを示唆している。
関連論文リスト
- Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - ContextHOI: Spatial Context Learning for Human-Object Interaction Detection [24.381821663963898]
空間コンテキストは、Human-Object Interaction (HOI) 認識において重要であると考えられている。
本稿では、オブジェクト検出機能と空間コンテキストの両方を効率的にキャプチャするContextHOIというデュアルブランチフレームワークを提案する。
ContextHOIはHICO-DETとv-cocoベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-12T08:21:19Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。