論文の概要: AnyImageNav: Any-View Geometry for Precise Last-Meter Image-Goal Navigation
- arxiv url: http://arxiv.org/abs/2604.05351v2
- Date: Wed, 08 Apr 2026 06:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.095778
- Title: AnyImageNav: Any-View Geometry for Precise Last-Meter Image-Goal Navigation
- Title(参考訳): AnyImageNav: 精密なラストメーター画像-ゴールナビゲーションのための任意のビュー幾何学
- Authors: Yijie Deng, Shuaihang Yuan, Yi Fang,
- Abstract要約: 我々はAnyImageNavを紹介した。AnyImageNavはトレーニング不要のシステムで、ImageNavをより要求の多い環境にプッシュする。
本手法は,Gibson (93.1%) とHM3D (82.6%) に対して最先端のナビゲーション成功率を設定し,従来の手法では提供されなかったポーズ回復を実現する。
- 参考スコア(独自算出の注目度): 10.175661009911257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Goal Navigation (ImageNav) is evaluated by a coarse success criterion, the agent must stop within 1m of the target, which is sufficient for finding objects but falls short for downstream tasks such as grasping that require precise positioning. We introduce AnyImageNav, a training-free system that pushes ImageNav toward this more demanding setting. Our key insight is that the goal image can be treated as a geometric query: any photo of an object, a hallway, or a room corner can be registered to the agent's observations via dense pixel-level correspondences, enabling recovery of the exact 6-DoF camera pose. Our method realizes this through a semantic-to-geometric cascade: a semantic relevance signal guides exploration and acts as a proximity gate, invoking a 3D multi-view foundation model only when the current view is highly relevant to the goal image; the model then self-certifies its registration in a loop for an accurate recovered pose. Our method sets state-of-the-art navigation success rates on Gibson (93.1%) and HM3D (82.6%), and achieves pose recovery that prior methods do not provide: a position error of 0.27m and heading error of 3.41 degrees on Gibson, and 0.21m / 1.23 degrees on HM3D, a 5-10x improvement over adapted baselines.
- Abstract(参考訳): Image Goal Navigation (ImageNav)は粗い成功基準によって評価され、エージェントはターゲットの1m以内で停止しなければならない。
我々はAnyImageNavを紹介した。AnyImageNavはトレーニング不要のシステムで、ImageNavをこのより要求の高い設定にプッシュする。
我々の重要な洞察は、ゴール画像は幾何学的なクエリとして扱うことができ、オブジェクト、廊下、部屋の角の任意の写真は、密集したピクセルレベルの対応を通してエージェントの観察に登録することができ、正確な6-DoFカメラのポーズの復元を可能にします。
セマンティック・レバレンス信号は探索を誘導し近接ゲートとして機能し、現在のビューが目標画像と高い関係にある場合にのみ3次元多視点基礎モデルを呼び出す。
提案手法は,Gibson(93.1%)とHM3D(82.6%)に最先端ナビゲーション成功率を設定し,Gibson(3.41度),HM3D(0.21m/1.23度),適応ベースライン(5~10倍)という,従来の手法では得られないポーズ回復を実現する。
関連論文リスト
- Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - Camera-Pose Robust Crater Detection from Chang'e 5 [18.986915927640396]
本研究では, クレーター検出のためのMask R-CNNの性能評価を行い, 外部視角を含む模擬データに基づく事前学習モデルと実画像による事前学習モデルを比較した。
実画像に対する事前トレーニングは, 外部視角を含む画像が欠如しているにもかかわらず, 63.1F1スコアの検知性能と0.701交叉の楕円回帰性能を実現しているにもかかわらず, 優れていることを示す。
論文 参考訳(メタデータ) (2024-06-07T01:11:31Z) - FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models [5.754251195342313]
私たちは、特定のデータでトレーニングすることなく、同じタスクに取り組む方法を示します。
我々は、事前学習された幾何学的および視覚的基礎モデルの能力を利用する新しいソリューションFreeZeを提案する。
FreeZeは、合成6Dポーズ推定データで広く訓練されたライバルを含む、最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-01T22:00:14Z) - FGPrompt: Fine-grained Goal Prompting for Image-goal Navigation [54.25416624924669]
画像ゴールナビゲーションのための細粒度ゴールプロンプト法(FGPrompt)を提案する。
FGPromptはゴール画像の詳細な情報を保存し、観測エンコーダにゴール関連領域に注意を払うよう誘導する。
提案手法は3つのベンチマークデータセットに対して大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-10-11T13:19:29Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - OnePose++: Keypoint-Free One-Shot Object Pose Estimation without CAD
Models [51.68715543630427]
OnePoseは繰り返し可能なイメージキーポイントの検出に依存しているので、低テクスチャオブジェクトで失敗する傾向がある。
繰り返し可能なキーポイント検出の必要性を取り除くために,キーポイントフリーポーズ推定パイプラインを提案する。
2D-3Dマッチングネットワークは、クエリ画像と再構成されたポイントクラウドモデルとの間の2D-3D対応を直接確立する。
論文 参考訳(メタデータ) (2023-01-18T17:47:13Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - L6DNet: Light 6 DoF Network for Robust and Precise Object Pose
Estimation with Small Datasets [0.0]
1枚のRGB-D画像から6つのDoFオブジェクトのポーズ推定を行う新しい手法を提案する。
データ駆動と幾何学という2段階のハイブリッドパイプラインを採用しています。
私たちのアプローチは最先端の手法よりも堅牢で正確です。
論文 参考訳(メタデータ) (2020-02-03T17:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。