論文の概要: Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera
- arxiv url: http://arxiv.org/abs/2501.02464v1
- Date: Sun, 05 Jan 2025 07:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:10.788817
- Title: Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera
- Title(参考訳): カメラの奥行きをゼロショットで測る(動画あり)
- Authors: Yuliang Guo, Sparsh Garg, S. Mahdi H. Miangoleh, Xinyu Huang, Liu Ren,
- Abstract要約: 本稿では,強力なゼロショット距離深度推定フレームワークであるDepth Any Camera (DAC)について述べる。
このフレームワークは、新しいアプリケーションで使用される特定のカメラタイプに関係なく、既存の3Dデータをすべて活用できるように設計されている。
DACは最先端のゼロショット距離推定を達成し、複数の魚眼および360度データセットでデルタ-1の精度を最大50%向上させる。
- 参考スコア(独自算出の注目度): 13.459760768067216
- License:
- Abstract: While recent depth estimation methods exhibit strong zero-shot generalization, achieving accurate metric depth across diverse camera types-particularly those with large fields of view (FoV) such as fisheye and 360-degree cameras-remains a significant challenge. This paper presents Depth Any Camera (DAC), a powerful zero-shot metric depth estimation framework that extends a perspective-trained model to effectively handle cameras with varying FoVs. The framework is designed to ensure that all existing 3D data can be leveraged, regardless of the specific camera types used in new applications. Remarkably, DAC is trained exclusively on perspective images but generalizes seamlessly to fisheye and 360-degree cameras without the need for specialized training data. DAC employs Equi-Rectangular Projection (ERP) as a unified image representation, enabling consistent processing of images with diverse FoVs. Its key components include a pitch-aware Image-to-ERP conversion for efficient online augmentation in ERP space, a FoV alignment operation to support effective training across a wide range of FoVs, and multi-resolution data augmentation to address resolution disparities between training and testing. DAC achieves state-of-the-art zero-shot metric depth estimation, improving delta-1 ($\delta_1$) accuracy by up to 50% on multiple fisheye and 360-degree datasets compared to prior metric depth foundation models, demonstrating robust generalization across camera types.
- Abstract(参考訳): 近年,魚眼や360度カメラなどの視野(FoV)の多種多様なカメラタイプにおいて,高精度な距離推定が困難である。
本稿では、遠近距離学習モデルを拡張し、FoVの異なるカメラを効果的に処理する強力なゼロショット距離深度推定フレームワークであるDepth Any Camera(DAC)を提案する。
このフレームワークは、新しいアプリケーションで使用される特定のカメラタイプに関係なく、既存の3Dデータをすべて活用できるように設計されている。
注目すべきは、DACは視野画像のみに特化して訓練されているが、専門的な訓練データを必要としない、魚眼カメラや360度カメラにシームレスに一般化されていることだ。
DACは、Equi-Rectangular Projection (ERP) を統一された画像表現として採用し、多様なFoVで画像の一貫性のある処理を可能にする。
その鍵となるコンポーネントは、ERP空間における効率的なオンライン強化のためのピッチ対応画像-ERP変換、幅広いFoVにわたる効果的なトレーニングをサポートするFoVアライメント操作、トレーニングとテストの間の解像度格差に対処するためのマルチレゾリューションデータ拡張である。
DACは最先端のゼロショット距離推定を達成し、複数の魚眼および360度データセットにおいてデルタ-1(\delta_1$)精度を最大50%向上させ、カメラタイプ間の堅牢な一般化を実証する。
関連論文リスト
- GVDepth: Zero-Shot Monocular Depth Estimation for Ground Vehicles based on Probabilistic Cue Fusion [7.588468985212172]
計量単分子深度推定の一般化は、その不適切な性質のために重要な課題となる。
本稿では,様々なカメラ設定の整合性を維持する新しい標準表現を提案する。
また,物体の大きさや垂直位置の手がかりによって推定される深度を適応的かつ確率的に融合する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-08T22:04:34Z) - FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera [8.502741852406904]
魚眼カメラに適した自己監督深度推定モデルである魚眼深度について述べる。
魚眼カメラモデルを訓練中の投射と再投射の段階に組み込んで画像歪みの処理を行う。
また、連続するフレーム間の幾何学的投影に実際のポーズ情報を組み込んで、従来のポーズネットワークで推定されたポーズを置き換える。
論文 参考訳(メタデータ) (2024-09-23T14:31:42Z) - Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets [65.64958606221069]
マルチカメラシステムは、360ドル周の知覚を達成するために、しばしば自律走行に使用される。
360ドル(約3万3000円)のカメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。
重なりの重なりに多視点ステレオ結果を明示的に利用することにより、全画像の深さ推定を強化するステレオガイド深度推定法(SGDE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T02:41:37Z) - FoVA-Depth: Field-of-View Agnostic Depth Estimation for Cross-Dataset
Generalization [57.98448472585241]
本研究では,広く利用可能なピンホールデータに基づいてステレオ深度推定モデルを訓練する手法を提案する。
屋内および屋外の両方のデータセットに対するアプローチの強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-01-24T20:07:59Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - FS-Depth: Focal-and-Scale Depth Estimation from a Single Image in Unseen
Indoor Scene [57.26600120397529]
実際の(見えない)屋内シーンの単一の画像から絶対深度マップを予測するのには、長年不適切な問題だった。
本研究では,未確認屋内シーンの単一画像から絶対深度マップを正確に学習するための焦点・スケール深度推定モデルを開発した。
論文 参考訳(メタデータ) (2023-07-27T04:49:36Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - DFVS: Deep Flow Guided Scene Agnostic Image Based Visual Servoing [11.000164408890635]
既存のディープラーニングベースのビジュアルサーボアプローチは、画像間の相対カメラのポーズを後退させる。
我々は、深層ニューラルネットワークを用いて予測される視覚的特徴として光学的流れを考察する。
2cm以下と1度以下の正確な位置を維持しながら3m以上40度以上の収束性を示した。
論文 参考訳(メタデータ) (2020-03-08T11:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。