論文の概要: FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators
- arxiv url: http://arxiv.org/abs/2310.03420v2
- Date: Sat, 13 Apr 2024 08:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:37:19.061673
- Title: FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators
- Title(参考訳): FreeReg: 事前トレーニングされた拡散モデルと単眼深度推定器を活用するイメージツーポイントクラウド登録
- Authors: Haiping Wang, Yuan Liu, Bing Wang, Yujing Sun, Zhen Dong, Wenping Wang, Bisheng Yang,
- Abstract要約: イメージとポイントクラウド間のクロスモダリティ機能をマッチングすることは、イメージツーポイントクラウド登録の根本的な問題である。
まず,事前学習した大規模モデルを用いて,画像と点雲のモダリティを統一することを提案する。
画像から画像への拡散モデルから抽出した拡散特徴と呼ばれる中間的特徴が,画像と点雲の間で意味的に一致していることを示す。
- 参考スコア(独自算出の注目度): 37.39693977657165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matching cross-modality features between images and point clouds is a fundamental problem for image-to-point cloud registration. However, due to the modality difference between images and points, it is difficult to learn robust and discriminative cross-modality features by existing metric learning methods for feature matching. Instead of applying metric learning on cross-modality data, we propose to unify the modality between images and point clouds by pretrained large-scale models first, and then establish robust correspondence within the same modality. We show that the intermediate features, called diffusion features, extracted by depth-to-image diffusion models are semantically consistent between images and point clouds, which enables the building of coarse but robust cross-modality correspondences. We further extract geometric features on depth maps produced by the monocular depth estimator. By matching such geometric features, we significantly improve the accuracy of the coarse correspondences produced by diffusion features. Extensive experiments demonstrate that without any task-specific training, direct utilization of both features produces accurate image-to-point cloud registration. On three public indoor and outdoor benchmarks, the proposed method averagely achieves a 20.6 percent improvement in Inlier Ratio, a three-fold higher Inlier Number, and a 48.6 percent improvement in Registration Recall than existing state-of-the-arts.
- Abstract(参考訳): イメージとポイントクラウド間のクロスモダリティ機能をマッチングすることは、イメージツーポイントクラウド登録の根本的な問題である。
しかし,画像と点のモダリティの違いから,特徴マッチングのための既存の計量学習手法を用いて,頑健で差別的な異質な特徴を学習することは困難である。
そこで本研究では,まず画像と点雲のモダリティを事前学習した大規模モデルにより統一し,同じモダリティ内にロバストな対応性を確立することを提案する。
画像から画像への拡散モデルから抽出した拡散特徴と呼ばれる中間的特徴は,画像と点雲の間に意味的に整合性があることを示し,粗いが頑健な相互モダリティ対応の構築を可能にする。
さらに, 単分子深度推定器により生成された深度マップの幾何学的特徴を抽出する。
このような幾何学的特徴をマッチングすることにより、拡散特徴によって生成される粗い対応の精度を大幅に向上する。
広範囲な実験により、タスク固有のトレーニングがなければ、両方の機能の直接的な利用は、正確なイメージ・ツー・ポイントのクラウド登録を生み出すことが示されている。
屋内および屋外の3つのベンチマークでは、提案手法はインリエ比が平均20.6%向上し、3倍のインリエ数、48.6%の登録リコールを実現している。
関連論文リスト
- SRIF: Semantic Shape Registration Empowered by Diffusion-based Image Morphing and Flow Estimation [2.336821026049481]
拡散型画像モーフィングとフロー推定に基づく新しいセマンティック形状登録フレームワークSRIFを提案する。
SRIFは、挑戦的な形状対に関する高品質な密接な対応を実現するが、その間にスムーズで意味のある意味を与える。
論文 参考訳(メタデータ) (2024-09-18T03:47:24Z) - DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion [35.60459492849359]
本研究では,大きな動きを持つ画像対から中間画像を生成する問題について検討する。
大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。
3つの主要コンポーネントを持つ新しいイメージフレームワークであるDreamMoverを提案する。
論文 参考訳(メタデータ) (2024-09-15T04:09:12Z) - Multiway Point Cloud Mosaicking with Diffusion and Global Optimization [74.3802812773891]
マルチウェイポイントクラウドモザイクのための新しいフレームワーク(水曜日)を紹介する。
我々のアプローチの核心は、重複を識別し、注意点を洗練する学習されたペアワイズ登録アルゴリズムODINである。
4つの多種多様な大規模データセットを用いて、我々の手法は、全てのベンチマークにおいて大きなマージンで、最先端のペアとローテーションの登録結果を比較した。
論文 参考訳(メタデータ) (2024-03-30T17:29:13Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Let Images Give You More:Point Cloud Cross-Modal Training for Shape
Analysis [43.13887916301742]
本稿では、ポイントクラウド分析を促進するために、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を導入する。
ビューイメージから補助的知識を効果的に獲得するために,教師学生のための枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。
我々は、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPを備えた様々なデータセットにおいて、大きな利益を検証した。
論文 参考訳(メタデータ) (2022-10-09T09:35:22Z) - ImLoveNet: Misaligned Image-supported Registration Network for
Low-overlap Point Cloud Pairs [14.377604289952188]
対の点雲間の低オーバーラップ領域は、捕獲された特徴を非常に低信頼にする。
我々は,ImLoveNetと呼ばれる低オーバーラップ点雲対に対する画像対応登録ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-02T13:17:34Z) - Multiway Non-rigid Point Cloud Registration via Learned Functional Map
Synchronization [105.14877281665011]
我々は、点雲上に定義された学習関数に関する地図を同期させることにより、複数の非剛体形状を登録する新しい方法であるSyNoRiMを提案する。
提案手法は,登録精度において最先端の性能を達成できることを実証する。
論文 参考訳(メタデータ) (2021-11-25T02:37:59Z) - Semantic similarity metrics for learned image registration [10.355938901584565]
画像登録のための意味的類似度尺度を提案する。
このアプローチは、学習に基づく登録モデルの最適化を促進するデータセット固有の特徴を学習する。
自動エンコーダを用いた非監視的アプローチと、補助セグメンテーションデータを用いた半監督的アプローチの両方をトレーニングし、画像登録のための意味的特徴を抽出します。
論文 参考訳(メタデータ) (2021-04-20T15:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。