論文の概要: DiffCalib: Reformulating Monocular Camera Calibration as Diffusion-Based Dense Incident Map Generation
- arxiv url: http://arxiv.org/abs/2405.15619v1
- Date: Fri, 24 May 2024 15:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:30:40.376247
- Title: DiffCalib: Reformulating Monocular Camera Calibration as Diffusion-Based Dense Incident Map Generation
- Title(参考訳): DiffCalib:拡散型デンスインシデントマップ生成による単眼カメラ校正の改革
- Authors: Xiankang He, Guangkai Xu, Bo Zhang, Hao Chen, Ying Cui, Dongyan Guo,
- Abstract要約: 我々は、事前学習した拡散モデルに埋め込まれた包括的視覚知識を活用し、より堅牢で正確な単眼カメラ固有の推定を可能にする。
本モデルでは, 予測誤差を最大40%低減し, 最先端性能を実現する。
- 参考スコア(独自算出の注目度): 13.772897737616649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular camera calibration is a key precondition for numerous 3D vision applications. Despite considerable advancements, existing methods often hinge on specific assumptions and struggle to generalize across varied real-world scenarios, and the performance is limited by insufficient training data. Recently, diffusion models trained on expansive datasets have been confirmed to maintain the capability to generate diverse, high-quality images. This success suggests a strong potential of the models to effectively understand varied visual information. In this work, we leverage the comprehensive visual knowledge embedded in pre-trained diffusion models to enable more robust and accurate monocular camera intrinsic estimation. Specifically, we reformulate the problem of estimating the four degrees of freedom (4-DoF) of camera intrinsic parameters as a dense incident map generation task. The map details the angle of incidence for each pixel in the RGB image, and its format aligns well with the paradigm of diffusion models. The camera intrinsic then can be derived from the incident map with a simple non-learning RANSAC algorithm during inference. Moreover, to further enhance the performance, we jointly estimate a depth map to provide extra geometric information for the incident map estimation. Extensive experiments on multiple testing datasets demonstrate that our model achieves state-of-the-art performance, gaining up to a 40% reduction in prediction errors. Besides, the experiments also show that the precise camera intrinsic and depth maps estimated by our pipeline can greatly benefit practical applications such as 3D reconstruction from a single in-the-wild image.
- Abstract(参考訳): モノクロカメラキャリブレーションは、多くの3D視覚アプリケーションにとって重要な前提条件である。
かなりの進歩にもかかわらず、既存の手法は特定の仮定にヒンジし、様々な現実世界のシナリオにまたがる一般化に苦慮することが多く、その性能は不十分なトレーニングデータによって制限される。
近年,多様な高品質な画像を生成する能力を維持するために,拡張データセットで訓練された拡散モデルが確認されている。
この成功は、様々な視覚情報を効果的に理解するモデルの強い可能性を示唆している。
本研究では、事前学習した拡散モデルに埋め込まれた包括的視覚知識を活用し、より堅牢で正確な単眼カメラ固有の推定を可能にする。
具体的には、高密度入射マップ生成タスクとして、カメラ固有のパラメータの4自由度(4-DoF)を推定する問題を再構成する。
地図はRGB画像の各ピクセルの入射角を詳述し、そのフォーマットは拡散モデルのパラダイムとよく一致している。
カメラ固有の特徴は、推論中に単純な非学習型RANSACアルゴリズムでインシデントマップから導き出すことができる。
さらに,さらなる性能向上のために,入射マップ推定のための余分な幾何学的情報を提供するために,深度マップを共同で推定する。
複数のテストデータセットに対する大規模な実験により、我々のモデルは最先端のパフォーマンスを達成し、予測エラーを最大40%削減することを示した。
さらに,この実験により,パイプラインで推定したカメラ固有の深度マップと深度マップは,一本の線内画像から3次元再構成を行うなど,実用的な応用に大いに有用であることが確認された。
関連論文リスト
- Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration [34.18403601269181]
DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。
我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-11-26T09:04:37Z) - GRAPE: Generalizable and Robust Multi-view Facial Capture [12.255610707737548]
ディープラーニングベースのマルチビュー顔キャプチャ手法は、従来のメッシュ登録パイプラインよりも数桁高速で、印象的な精度を示している。
本研究では,異なるカメラアレイ上での推論(すなわち,新しいデータをキャプチャする)に訓練されたモデルを容易に利用できるように,一般化能力を向上させることを目的とする。
FaMoSデータセットとFaceScapeデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-14T13:24:17Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Wide-Baseline Relative Camera Pose Estimation with Directional Learning [46.21836501895394]
提案するDirectionNetは,新しいパラメータ化を用いて5次元相対ポーズ空間上の離散分布を推定し,推定問題を抽出できるようにする。
本研究では,Matterport3DとInstituteNetから構築した合成・実ポーズ推定データセットについて検討した。
論文 参考訳(メタデータ) (2021-06-07T04:46:09Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。