論文の概要: Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space
- arxiv url: http://arxiv.org/abs/2507.00392v1
- Date: Tue, 01 Jul 2025 03:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.246896
- Title: Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space
- Title(参考訳): 単一2次元画像から3次元空間へのリフティングによる難易度特徴マッチングの学習
- Authors: Yingping Liang, Yutao Hu, Wenqi Shao, Ying Fu,
- Abstract要約: 本稿では,2次元画像を3次元空間に引き上げ,大規模かつ多様な単一視点画像のフル活用を目的とした,新しい2段階のフレームワークを提案する。
第1段階では,多視点画像合成と3次元特徴ガウス表現を組み合わせた3次元特徴エンコーダを学習する。
第2段階では、単一視点画像からの大規模な合成データ生成と組み合わせて、特徴デコーダの学習を行う。
- 参考スコア(独自算出の注目度): 17.603217168518356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature matching plays a fundamental role in many computer vision tasks, yet existing methods heavily rely on scarce and clean multi-view image collections, which constrains their generalization to diverse and challenging scenarios. Moreover, conventional feature encoders are typically trained on single-view 2D images, limiting their capacity to capture 3D-aware correspondences. In this paper, we propose a novel two-stage framework that lifts 2D images to 3D space, named as \textbf{Lift to Match (L2M)}, taking full advantage of large-scale and diverse single-view images. To be specific, in the first stage, we learn a 3D-aware feature encoder using a combination of multi-view image synthesis and 3D feature Gaussian representation, which injects 3D geometry knowledge into the encoder. In the second stage, a novel-view rendering strategy, combined with large-scale synthetic data generation from single-view images, is employed to learn a feature decoder for robust feature matching, thus achieving generalization across diverse domains. Extensive experiments demonstrate that our method achieves superior generalization across zero-shot evaluation benchmarks, highlighting the effectiveness of the proposed framework for robust feature matching.
- Abstract(参考訳): 多くのコンピュータビジョンタスクにおいて、特徴マッチングは基本的な役割を果たすが、既存の手法は、多様で困難なシナリオへの一般化を制限している、希少でクリーンな多視点画像コレクションに大きく依存している。
さらに、従来の特徴エンコーダは、通常、シングルビューの2D画像で訓練され、3D対応の対応を捉える能力を制限する。
本稿では,2次元画像を3次元空間に引き上げる新しい2段階のフレームワークを提案する。
具体的には、まず、多視点画像合成と3次元特徴ガウス表現を組み合わせた3次元特徴量エンコーダを学習し、3次元幾何学的知識をエンコーダに注入する。
第2段階では、単一視点画像からの大規模合成データ生成と組み合わせて、ロバストな特徴マッチングのための特徴デコーダを学習し、多様な領域にまたがる一般化を実現する。
実験の結果,提案手法はゼロショット評価ベンチマークにおいて優れた一般化を実現し,ロバストな特徴マッチングのためのフレームワークの有効性を強調した。
関連論文リスト
- CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文 参考訳(メタデータ) (2024-08-12T13:53:40Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。