論文の概要: SPIDER: Spatial Image CorresponDence Estimator for Robust Calibration
- arxiv url: http://arxiv.org/abs/2511.17750v1
- Date: Fri, 21 Nov 2025 20:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.399343
- Title: SPIDER: Spatial Image CorresponDence Estimator for Robust Calibration
- Title(参考訳): SPIDER:ロバスト校正のための空間画像相関推定器
- Authors: Zhimin Shao, Abhay Yadav, Rama Chellappa, Cheng Peng,
- Abstract要約: 本稿では,共有特徴抽出バックボーンを2つの専用ネットワークヘッドに統合した共通特徴マッチングフレームワークであるSPIDERを紹介する。
SPIDERはSoTA法よりも優れており、普遍的な画像マッチング法としての強い能力を示している。
- 参考スコア(独自算出の注目度): 28.539636818320886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable image correspondences form the foundation of vision-based spatial perception, enabling recovery of 3D structure and camera poses. However, unconstrained feature matching across domains such as aerial, indoor, and outdoor scenes remains challenging due to large variations in appearance, scale and viewpoint. Feature matching has been conventionally formulated as a 2D-to-2D problem; however, recent 3D foundation models provides spatial feature matching properties based on two-view geometry. While powerful, we observe that these spatially coherent matches often concentrate on dominant planar regions, e.g., walls or ground surfaces, while being less sensitive to fine-grained geometric details, particularly under large viewpoint changes. To better understand these trade-offs, we first perform linear probe experiments to evaluate the performance of various vision foundation models for image matching. Building on these insights, we introduce SPIDER, a universal feature matching framework that integrates a shared feature extraction backbone with two specialized network heads for estimating both 2D-based and 3D-based correspondences from coarse to fine. Finally, we introduce an image-matching evaluation benchmark that focuses on unconstrained scenarios with large baselines. SPIDER significantly outperforms SoTA methods, demonstrating its strong ability as a universal image-matching method.
- Abstract(参考訳): 信頼性の高い画像対応は、視覚に基づく空間知覚の基礎を形成し、3D構造とカメラのポーズの回復を可能にする。
しかし、外観、規模、視点に大きな変化があるため、空気、屋内、屋外などの領域間での制約のない特徴マッチングは依然として困難である。
特徴マッチングは従来の2D-to-2D問題として定式化されてきたが、近年の3次元基礎モデルは2次元幾何学に基づく空間的特徴マッチング特性を提供する。
これらの空間的コヒーレントなマッチングは、しばしば支配的な平面領域(例えば壁や地面など)に集中するが、特に大きな視点変化の下では、微粒な幾何学的詳細に敏感ではない。
これらのトレードオフをよりよく理解するために、まず線形プローブ実験を行い、画像マッチングのための様々な視覚基盤モデルの性能を評価する。
これらの知見に基づいて,共有特徴抽出バックボーンと2つの専用ネットワークヘッドを統合し,粗さから細さまで2次元および3次元の対応を推定する共通特徴マッチングフレームワークであるSPIDERを紹介した。
最後に,大規模なベースラインを持つ制約のないシナリオに焦点を当てた画像マッチング評価ベンチマークを提案する。
SPIDERはSoTA法よりも優れており、普遍的な画像マッチング法としての強い能力を示している。
関連論文リスト
- CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation [79.12683101131368]
カテゴリーレベルのオブジェクトのポーズ推定は、既知のカテゴリから6次元のポーズと3次元の大きさを予測することを目的としている。
我々は、DINOv2のセマンティックカテゴリにオブジェクト固有の幾何学的特徴を統合する新しいアプローチであるSecondPoseを提案する。
論文 参考訳(メタデータ) (2023-11-18T17:14:07Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D
Signals [9.201550006194994]
学習可能なマーカは、画像ペア間のコビジュアビリティの小さな領域だけが存在する場合、しばしば性能が低下する。
グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワーク LFM-3D を提案する。
その結果,画像対の相対的ポーズ精度が向上し,画像対の相対的ポーズ精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-03-22T17:46:27Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence [51.91791056908387]
我々は,CorrI2Pと呼ばれる画像間クラウドの登録問題に対処するための,機能に基づく最初の高密度対応フレームワークを提案する。
具体的には、3次元の点雲の前に2次元画像が1対あるとすると、まずそれらを高次元の特徴空間に変換し、特徴を対称的に重なり合う領域に変換して、画像点雲が重なり合う領域を決定する。
論文 参考訳(メタデータ) (2022-07-12T11:49:31Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。