論文の概要: AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion
- arxiv url: http://arxiv.org/abs/2503.21581v1
- Date: Thu, 27 Mar 2025 14:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:19.307518
- Title: AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion
- Title(参考訳): AlignDiff: 拡散による物理的周囲のカメラアライメントの学習
- Authors: Liuyue Xie, Jiancong Guo, Ozan Cakmakci, Andre Araujo, Laszlo A. Jeni, Zhiheng Jia,
- Abstract要約: 本稿では,カメラ内在パラメータと外在パラメータをジェネリック・レイ・カメラ・モデルを用いて扱う新しいフレームワークを提案する。
従来のアプローチとは異なり、AlignDiffは意味論から幾何学的特徴へ焦点を移し、局所歪みのより正確なモデリングを可能にした。
実験により,提案手法は,推定光束の角誤差を8.2度,全体のキャリブレーション精度で著しく低減し,課題のある実世界のデータセットに対する既存手法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 0.5277756703318045
- License:
- Abstract: Accurate camera calibration is a fundamental task for 3D perception, especially when dealing with real-world, in-the-wild environments where complex optical distortions are common. Existing methods often rely on pre-rectified images or calibration patterns, which limits their applicability and flexibility. In this work, we introduce a novel framework that addresses these challenges by jointly modeling camera intrinsic and extrinsic parameters using a generic ray camera model. Unlike previous approaches, AlignDiff shifts focus from semantic to geometric features, enabling more accurate modeling of local distortions. We propose AlignDiff, a diffusion model conditioned on geometric priors, enabling the simultaneous estimation of camera distortions and scene geometry. To enhance distortion prediction, we incorporate edge-aware attention, focusing the model on geometric features around image edges, rather than semantic content. Furthermore, to enhance generalizability to real-world captures, we incorporate a large database of ray-traced lenses containing over three thousand samples. This database characterizes the distortion inherent in a diverse variety of lens forms. Our experiments demonstrate that the proposed method significantly reduces the angular error of estimated ray bundles by ~8.2 degrees and overall calibration accuracy, outperforming existing approaches on challenging, real-world datasets.
- Abstract(参考訳): 正確なカメラキャリブレーションは、特に複雑な光歪みが一般的である実世界、地中環境を扱う場合に、3D知覚の基本的なタスクである。
既存の手法はしばしば、修正済みの画像やキャリブレーションパターンに依存しており、適用性と柔軟性を制限している。
本研究では,これらの課題に対処する新しい枠組みを,ジェネリック・レイ・カメラ・モデルを用いて,カメラ固有のパラメータと外部パラメータを共同でモデル化する。
従来のアプローチとは異なり、AlignDiffは意味論から幾何学的特徴へ焦点を移し、局所歪みのより正確なモデリングを可能にした。
本稿では,カメラ歪みとシーン形状の同時推定が可能な,幾何学的先行条件に基づく拡散モデルAlignDiffを提案する。
歪み予測の精度を高めるために、エッジ認識の注意を取り入れ、意味的コンテンツではなく、画像のエッジ周辺の幾何学的特徴に焦点をあてる。
さらに,実世界の撮影への一般化性を高めるため,3万点以上の試料を含むレイトレーシングレンズの大規模データベースを組み込んだ。
このデータベースは、様々なレンズ形状に固有の歪みを特徴付ける。
実験により,提案手法は,推定光束の角誤差を約8.2度削減し,全体の校正精度を向上し,挑戦的な実世界のデータセットに対する既存手法よりも優れることを示した。
関連論文リスト
- SphereDiffusion: Spherical Geometry-Aware Distortion Resilient Diffusion Model [63.685132323224124]
制御可能な球状パノラマ画像生成は、様々な領域でかなりの応用可能性を持っている。
本稿では,これらの課題に対処するために,SphereDiffusionの新しいフレームワークを提案する。
Structured3Dデータセットの実験では、SphereDiffusionは制御可能な球面画像生成の品質を大幅に改善し、平均して約35%のFIDを相対的に削減している。
論文 参考訳(メタデータ) (2024-03-15T06:26:46Z) - Single-image camera calibration with model-free distortion correction [0.0]
本稿では,センサ全体をカバーする平面スペックルパターンの単一画像から,キャリブレーションパラメータの完全な集合を推定する方法を提案する。
デジタル画像相関を用いて校正対象の画像点と物理点との対応を求める。
プロシージャの最後には、画像全体にわたって、密度が高く均一なモデルフリーな歪みマップが得られる。
論文 参考訳(メタデータ) (2024-03-02T16:51:35Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - Curved Diffusion: A Generative Model With Optical Geometry Control [56.24220665691974]
最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。
本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T13:06:48Z) - How to turn your camera into a perfect pinhole model [0.38233569758620056]
本稿では,画像からの歪みを除去する前処理ステップを含む新しいアプローチを提案する。
本手法は歪みモデルを仮定する必要がなく, 厳しい歪み画像に適用できる。
このモデルは、多くのアルゴリズムとアプリケーションの深刻なアップグレードを可能にします。
論文 参考訳(メタデータ) (2023-09-20T13:54:29Z) - Neural Lens Modeling [50.57409162437732]
NeuroLens(ニューロレンス)は、点投影と光線鋳造に使用できる歪みと磁化のための神経レンズモデルである。
古典的なキャリブレーションターゲットを使用してプリキャプチャのキャリブレーションを行うことができ、後に3D再構成の際にキャリブレーションやリファインメントを行うために使用できる。
このモデルは、多くのレンズタイプにまたがって一般化されており、既存の3D再構成とレンダリングシステムとの統合は容易である。
論文 参考訳(メタデータ) (2023-04-10T20:09:17Z) - A Model for Multi-View Residual Covariances based on Perspective
Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。
我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文 参考訳(メタデータ) (2022-02-01T21:21:56Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。