論文の概要: Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration
- arxiv url: http://arxiv.org/abs/2411.17240v1
- Date: Tue, 26 Nov 2024 09:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:01.087627
- Title: Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration
- Title(参考訳): 拡散型単眼カメラキャリブレーションによる3次元再構築
- Authors: Junyuan Deng, Wei Yin, Xiaoyang Guo, Qian Zhang, Xiaotao Hu, Weiqiang Ren, Xiaoxiao Long, Ping Tan,
- Abstract要約: DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。
我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
- 参考スコア(独自算出の注目度): 34.18403601269181
- License:
- Abstract: In this paper, we present DM-Calib, a diffusion-based approach for estimating pinhole camera intrinsic parameters from a single input image. Monocular camera calibration is essential for many 3D vision tasks. However, most existing methods depend on handcrafted assumptions or are constrained by limited training data, resulting in poor generalization across diverse real-world images. Recent advancements in stable diffusion models, trained on massive data, have shown the ability to generate high-quality images with varied characteristics. Emerging evidence indicates that these models implicitly capture the relationship between camera focal length and image content. Building on this insight, we explore how to leverage the powerful priors of diffusion models for monocular pinhole camera calibration. Specifically, we introduce a new image-based representation, termed Camera Image, which losslessly encodes the numerical camera intrinsics and integrates seamlessly with the diffusion framework. Using this representation, we reformulate the problem of estimating camera intrinsics as the generation of a dense Camera Image conditioned on an input image. By fine-tuning a stable diffusion model to generate a Camera Image from a single RGB input, we can extract camera intrinsics via a RANSAC operation. We further demonstrate that our monocular calibration method enhances performance across various 3D tasks, including zero-shot metric depth estimation, 3D metrology, pose estimation and sparse-view reconstruction. Extensive experiments on multiple public datasets show that our approach significantly outperforms baselines and provides broad benefits to 3D vision tasks. Code is available at https://github.com/JunyuanDeng/DM-Calib.
- Abstract(参考訳): 本稿では,単一入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチであるDM-Calibを提案する。
モノクロカメラキャリブレーションは多くの3次元視覚タスクに必須である。
しかし、既存のほとんどの手法は手作りの仮定に依存するか、限られた訓練データに制約されているため、様々な実世界の画像にまたがる一般化は不十分である。
大規模データに基づく安定拡散モデルの最近の進歩は、様々な特性を持つ高品質な画像を生成する能力を示している。
新たな証拠は、これらのモデルがカメラ焦点長と画像内容の関係を暗黙的に捉えていることを示している。
この知見に基づいて、単眼ピンホールカメラキャリブレーションにおける拡散モデルの強力な先行モデルを活用する方法について検討する。
具体的には、画像に基づく新しい表現であるCamera Imageを導入し、数値カメラの内在性を損なうことなく符号化し、拡散フレームワークとシームレスに統合する。
この表現を用いて、入力画像に条件付けされた高密度カメラ画像の生成として、カメラ内在性を推定する問題を再構成する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
さらに,本手法は,ゼロショット距離深度推定,3次元メソロジー,ポーズ推定,スパースビュー再構成など,様々な3次元タスクにおける性能向上を実証する。
複数の公開データセットに対する大規模な実験は、我々のアプローチがベースラインを大幅に上回り、3Dビジョンタスクに幅広い利点をもたらすことを示している。
コードはhttps://github.com/JunyuanDeng/DM-Calibで入手できる。
関連論文リスト
- ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文 参考訳(メタデータ) (2024-08-16T22:45:46Z) - CamFreeDiff: Camera-free Image to Panorama Generation with Diffusion Model [12.38275663977654]
本稿では,1枚のカメラレス画像とテキスト記述から360度映像を出力するカメラフリー拡散モデルを提案する。
本モデルは,マルチビュー拡散フレームワーク内でのホモグラフィーを直接予測する機構を組み込んだものである。
論文 参考訳(メタデータ) (2024-07-09T18:41:12Z) - DiffCalib: Reformulating Monocular Camera Calibration as Diffusion-Based Dense Incident Map Generation [13.772897737616649]
我々は、事前学習した拡散モデルに埋め込まれた包括的視覚知識を活用し、より堅牢で正確な単眼カメラ固有の推定を可能にする。
本モデルでは, 予測誤差を最大40%低減し, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-24T15:05:04Z) - Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。
Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文 参考訳(メタデータ) (2024-05-19T17:13:16Z) - Dual-Camera Smooth Zoom on Mobile Phones [55.4114152554769]
我々は、スムーズなズームプレビューを実現するために、新しいタスク、すなわちデュアルカメラスムーズズーム(DCSZ)を導入する。
フレームモデル (FI) 技術は潜在的な解決法であるが、地軸収集に苦慮している。
連続型仮想カメラを組み込んだデータファクトリソリューションを提案し,シーンの再構成された3DモデルをレンダリングしてDCSZデータを生成する。
論文 参考訳(メタデータ) (2024-04-07T10:28:01Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。