論文の概要: Diff-Reg v2: Diffusion-Based Matching Matrix Estimation for Image Matching and 3D Registration
- arxiv url: http://arxiv.org/abs/2503.04127v1
- Date: Thu, 06 Mar 2025 06:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:38.640109
- Title: Diff-Reg v2: Diffusion-Based Matching Matrix Estimation for Image Matching and 3D Registration
- Title(参考訳): Diff-Reg v2: 画像マッチングと3次元登録のための拡散型マッチング行列推定
- Authors: Qianliang Wu, Haobo Jiang, Yaqing Ding, Lei Luo, Jin Xie, Jian Yang,
- Abstract要約: 本稿では,行列空間における拡散モデルを利用して,ロバストマッチング行列推定を行う革新的パラダイムを提案する。
具体的には、3D-3Dおよび2D-3D登録タスクに対して2次元行列空間に拡散モデルを適用する。
3つの登録タスクすべてに対して、各タスクの特定の特性に合わせた適応的マッチング行列埋め込み実装を提供する。
- 参考スコア(独自算出の注目度): 33.8118117906136
- License:
- Abstract: Establishing reliable correspondences is crucial for all registration tasks, including 2D image registration, 3D point cloud registration, and 2D-3D image-to-point cloud registration. However, these tasks are often complicated by challenges such as scale inconsistencies, symmetry, and large deformations, which can lead to ambiguous matches. Previous feature-based and correspondence-based methods typically rely on geometric or semantic features to generate or polish initial potential correspondences. Some methods typically leverage specific geometric priors, such as topological preservation, to devise diverse and innovative strategies tailored to a given enhancement goal, which cannot be exhaustively enumerated. Additionally, many previous approaches rely on a single-step prediction head, which can struggle with local minima in complex matching scenarios. To address these challenges, we introduce an innovative paradigm that leverages a diffusion model in matrix space for robust matching matrix estimation. Our model treats correspondence estimation as a denoising diffusion process in the matching matrix space, gradually refining the intermediate matching matrix to the optimal one. Specifically, we apply the diffusion model in the doubly stochastic matrix space for 3D-3D and 2D-3D registration tasks. In the 2D image registration task, we deploy the diffusion model in a matrix subspace where dual-softmax projection regularization is applied. For all three registration tasks, we provide adaptive matching matrix embedding implementations tailored to the specific characteristics of each task while maintaining a consistent "match-to-warp" encoding pattern. Furthermore, we adopt a lightweight design for the denoising module. In inference, once points or image features are extracted and fixed, this module performs multi-step denoising predictions through reverse sampling.
- Abstract(参考訳): 2D画像登録,3Dポイントクラウド登録,2D-3Dイメージ・ツー・ポイントクラウド登録など,すべての登録タスクに対して信頼性の高い対応を確立することが重要である。
しかし、これらのタスクはスケールの不整合、対称性、大きな変形といった問題によって複雑になり、あいまいな一致につながることがある。
従来の特徴ベースおよび対応ベースの手法は、通常、初期潜在的な対応を生成または洗練するために幾何学的または意味的な特徴に依存している。
一般に、トポロジカル保存のような特定の幾何学的先例を活用して、与えられた拡張目標に合わせた多様で革新的な戦略を考案する手法もある。
さらに、多くの従来のアプローチは単一ステップの予測ヘッドに依存しており、複雑なマッチングシナリオにおいて局所的なミニマと競合する可能性がある。
これらの課題に対処するために,行列空間における拡散モデルを利用して,ロバストなマッチング行列推定を行う革新的なパラダイムを導入する。
本モデルでは,一致行列空間における共振拡散過程として対応推定を扱い,中間整合行列を最適行列に徐々に精製する。
具体的には、3D-3Dおよび2D-3D登録タスクに対して2次元確率行列空間に拡散モデルを適用する。
2次元画像登録タスクでは,2重ソフトマックス射影正規化を適用した行列部分空間に拡散モデルを配置する。
3つの登録タスクすべてに対して、一貫した「マッチ・トゥ・ワープ」符号化パターンを維持しながら、各タスクの特定の特性に合わせた適応的マッチング行列埋め込み実装を提供する。
さらに、デノナイジングモジュールに軽量な設計を採用する。
推測において、一度点や画像の特徴を抽出して固定すると、このモジュールは逆サンプリングにより多段階の騒音予測を行う。
関連論文リスト
- NIMBA: Towards Robust and Principled Processing of Point Clouds With SSMs [9.978766637766373]
データ複製を必要とせずに3次元空間構造を維持できる点雲を1次元配列に変換する手法を提案する。
本手法では位置埋め込みは必要とせず, 精度を保ちながら短いシーケンス長が可能である。
論文 参考訳(メタデータ) (2024-10-31T18:58:40Z) - Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration [2.814748676983944]
局所球面ユークリッド3次元等分散特性をSE(3)メッセージパッシングに基づく伝搬により埋め込んだグラフニューラルネットワークモデルを提案する。
我々のモデルは、主に記述モジュール、同変グラフ層、類似性、最終的な回帰層から構成される。
3DMatchおよびKITTIデータセットで行った実験は、最先端のアプローチと比較して、我々のモデルの魅力的で堅牢な性能を示している。
論文 参考訳(メタデータ) (2024-10-08T06:48:01Z) - Diff-Reg v1: Diffusion Matching Model for Registration Problem [34.57825794576445]
既存の手法では、幾何学的あるいは意味的な特徴を利用して潜在的な対応を生成する。
従来はシングルパス予測に頼っていた手法は、複雑なシナリオにおいて局所的なミニマと競合する可能性がある。
本稿では,ロバスト対応推定のための拡散マッチングモデルを提案する。
論文 参考訳(メタデータ) (2024-03-29T02:10:38Z) - SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D
Object Pose Estimation [66.16525145765604]
実世界のシナリオにおける6次元オブジェクトポーズ推定のためのSE(3)拡散モデルに基づく点クラウド登録フレームワークを提案する。
提案手法は,3次元登録タスクをデノナイズ拡散過程として定式化し,音源雲の姿勢を段階的に洗練する。
実世界のTUD-L, LINEMOD, およびOccluded-LINEMODデータセットにおいて, 拡散登録フレームワークが顕著なポーズ推定性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-26T12:47:26Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Searching Dense Point Correspondences via Permutation Matrix Learning [50.764666304335]
本稿では,3次元点雲の高密度対応を推定するエンド・ツー・エンドの学習手法を提案する。
本手法は,高密度対応学習のための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-26T17:56:09Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - U-mesh: Human Correspondence Matching with Mesh Convolutional Networks [15.828285556159026]
本稿では,パラメータテンプレートモデルを生の走査メッシュに適合させるために,レグレッション(ボトムアップ)と生成(トップダウン)のエレガントな融合を提案する。
最初の大きな貢献は、テンプレート表面への点対応を予測する固有の畳み込みメッシュU-netアーキテクチャである。
FAUST対応課題に対する提案手法の評価を行い,対象者間対応技術の現状を20%(33%)改善する方法について検討した。
論文 参考訳(メタデータ) (2021-08-15T08:58:45Z) - DeepGMR: Learning Latent Gaussian Mixture Models for Registration [113.74060941036664]
ポイントクラウドの登録は、3Dコンピュータビジョン、グラフィックス、ロボット工学の基本的な問題である。
本稿では,最初の学習ベース登録法であるDeep Gaussian Mixture Registration(DeepGMR)を紹介する。
提案手法は,最先端の幾何学的および学習的登録手法と比較して,良好な性能を示す。
論文 参考訳(メタデータ) (2020-08-20T17:25:16Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。