論文の概要: UniDAC: Universal Metric Depth Estimation for Any Camera
- arxiv url: http://arxiv.org/abs/2603.27105v1
- Date: Sat, 28 Mar 2026 03:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.785985
- Title: UniDAC: Universal Metric Depth Estimation for Any Camera
- Title(参考訳): UniDAC:どんなカメラでも世界平均深度を推定できる
- Authors: Girish Chandar Ganesan, Yuliang Guo, Liu Ren, Xiaoming Liu,
- Abstract要約: 単分子距離深度推定(MMDE)はコンピュータビジョンにおける中核的な課題であり、正確な空間的理解を必要とする現実世界のアプリケーションにおいて重要な役割を担っている。
MMDEフレームワークであるUniDACを提案する。UniDACは、すべてのドメインにおいて普遍的なロバスト性を示し、単一のモデルを用いて多様なカメラにまたがって一般化する。
距離深度推定を相対的な深度予測と空間的に異なるスケール推定に分離することにより、異なる領域間で堅牢な性能を実現する。
- 参考スコア(独自算出の注目度): 27.152509271066098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular metric depth estimation (MMDE) is a core challenge in computer vision, playing a pivotal role in real-world applications that demand accurate spatial understanding. Although prior works have shown promising zero-shot performance in MMDE, they often struggle with generalization across diverse camera types, such as fisheye and $360^\circ$ cameras. Recent advances have addressed this through unified camera representations or canonical representation spaces, but they require either including large-FoV camera data during training or separately trained models for different domains. We propose UniDAC, an MMDE framework that presents universal robustness in all domains and generalizes across diverse cameras using a single model. We achieve this by decoupling metric depth estimation into relative depth prediction and spatially varying scale estimation, enabling robust performance across different domains. We propose a lightweight Depth-Guided Scale Estimation module that upsamples a coarse scale map to high resolution using the relative depth map as guidance to account for local scale variations. Furthermore, we introduce RoPE-$φ$, a distortion-aware positional embedding that respects the spatial warping in Equi-Rectangular Projections (ERP) via latitude-aware weighting. UniDAC achieves state of the art (SoTA) in cross-camera generalization by consistently outperforming prior methods across all datasets.
- Abstract(参考訳): 単分子距離深度推定(MMDE)はコンピュータビジョンにおける中核的な課題であり、正確な空間的理解を必要とする現実世界のアプリケーションにおいて重要な役割を担っている。
以前の研究では、MMDEのゼロショット性能は有望であったが、魚眼や360^\circ$カメラなど、様々なタイプのカメラの一般化に苦慮することが多い。
近年の進歩は、統一されたカメラ表現や標準表現空間を通じてこの問題に対処しているが、トレーニング中に大規模なFoVカメラデータを含むか、異なるドメイン向けに個別に訓練されたモデルが必要である。
MMDEフレームワークであるUniDACを提案する。UniDACは、すべてのドメインにおいて普遍的なロバスト性を示し、単一のモデルを用いて多様なカメラにまたがって一般化する。
距離深度推定を相対的な深度予測と空間的に異なるスケール推定に分離することにより、異なる領域にわたる堅牢な性能を実現する。
本稿では,局所的なスケール変動を考慮に入れた相対深度マップを用いて,粗いスケールマップを高分解能にアップサンプリングする軽量なDepth-Guided Scale Estimationモジュールを提案する。
さらに、等角射影(ERP)の空間的歪みを経時的に重み付けする歪み認識型位置埋め込みであるRoPE-$φ$を紹介する。
UniDACは、すべてのデータセットにまたがる先行メソッドを一貫して上回ることによって、クロスカメラの一般化において最先端(SoTA)を実現する。
関連論文リスト
- Semi-SMD: Semi-Supervised Metric Depth Estimation via Surrounding Cameras for Autonomous Driving [21.827292830060728]
Semi-SMDは、自動運転における周囲のカメラ機器に適した新しいメートル法深度推定フレームワークである。
本稿では,視覚的融合機能を構築するために,空間空間-時間-意味融合モジュールを提案する。
DDADおよびnuScenesデータセットを用いてアルゴリズムの評価を行い,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-25T14:39:04Z) - UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler [62.06785782635153]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthV2を提案する。
UniDepthV2は、追加情報なしで、入力画像から推論時にメートル法3Dポイントを直接予測する。
我々のモデルは擬似球面出力表現を利用し、カメラと深度表現をアンタングル化する。
論文 参考訳(メタデータ) (2025-02-27T14:03:15Z) - Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera [13.459760768067216]
本稿では,強力なゼロショット距離深度推定フレームワークであるDepth Any Camera (DAC)について述べる。
このフレームワークは、新しいアプリケーションで使用される特定のカメラタイプに関係なく、既存の3Dデータをすべて活用できるように設計されている。
論文 参考訳(メタデータ) (2025-01-05T07:22:40Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - FoVA-Depth: Field-of-View Agnostic Depth Estimation for Cross-Dataset
Generalization [57.98448472585241]
本研究では,広く利用可能なピンホールデータに基づいてステレオ深度推定モデルを訓練する手法を提案する。
屋内および屋外の両方のデータセットに対するアプローチの強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-01-24T20:07:59Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。