論文の概要: Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model
- arxiv url: http://arxiv.org/abs/2312.13252v1
- Date: Wed, 20 Dec 2023 18:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 14:28:32.102005
- Title: Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model
- Title(参考訳): 視野条件付き拡散モデルによるゼロショット距離
- Authors: Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J.
Fleet
- Abstract要約: 単眼深度推定法は標準ベンチマークで大きく進歩したが、ゼロショット距離深度推定は未解決のままである。
近年,屋内と屋外のシーンを共同でモデリングするためのマルチヘッドアーキテクチャが提案されている。
我々は、ログスケールの深さパラメータ化などのいくつかの進歩を伴って、汎用的なタスクに依存しない拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 34.85279074665031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While methods for monocular depth estimation have made significant strides on
standard benchmarks, zero-shot metric depth estimation remains unsolved.
Challenges include the joint modeling of indoor and outdoor scenes, which often
exhibit significantly different distributions of RGB and depth, and the
depth-scale ambiguity due to unknown camera intrinsics. Recent work has
proposed specialized multi-head architectures for jointly modeling indoor and
outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion
model, with several advancements such as log-scale depth parameterization to
enable joint modeling of indoor and outdoor scenes, conditioning on the
field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV
during training to generalize beyond the limited camera intrinsics in training
datasets. Furthermore, by employing a more diverse training mixture than is
common, and an efficient diffusion parameterization, our method, DMD (Diffusion
for Metric Depth) achieves a 25\% reduction in relative error (REL) on
zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the
current SOTA using only a small number of denoising steps. For an overview see
https://diffusion-vision.github.io/dmd
- Abstract(参考訳): 単眼深度推定法は標準ベンチマークで大きく進歩したが、ゼロショット距離深度推定は未解決のままである。
課題には、RGBと深さのかなり異なる分布を示す屋内と屋外のシーンの合同モデリングや、未知のカメラ固有の原因による奥行きのあいまいさなどが含まれる。
近年,屋内と屋外のシーンを共同でモデリングするためのマルチヘッドアーキテクチャが提案されている。
対照的に、我々は、対数スケールの奥行きパラメータ化による屋内と屋外のシーンの連成モデリング、視野のあいまいさに対処するための条件付け、訓練中にFOVを合成的に拡張し、訓練データセットにおける限定的なカメラ内在性を超えた一般化を可能にする、汎用的なタスク非依存拡散モデルを提案している。
さらに,より多種多様な訓練混合物を用い,効率的な拡散パラメータ化を行うことにより,ゼロショット屋内における相対誤差(rel)の25-%低減,ゼロショット屋外データセットの33-%削減を少数の分別ステップで達成した。
概要はhttps://diffusion-vision.github.io/dmdを参照。
関連論文リスト
- Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration [34.18403601269181]
DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。
我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-11-26T09:04:37Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - FS-Depth: Focal-and-Scale Depth Estimation from a Single Image in Unseen
Indoor Scene [57.26600120397529]
実際の(見えない)屋内シーンの単一の画像から絶対深度マップを予測するのには、長年不適切な問題だった。
本研究では,未確認屋内シーンの単一画像から絶対深度マップを正確に学習するための焦点・スケール深度推定モデルを開発した。
論文 参考訳(メタデータ) (2023-07-27T04:49:36Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Monocular Depth Estimation using Diffusion Models [39.27361388836347]
トレーニングデータにおけるノイズや不完全な深度マップに起因する問題に対処するイノベーションを導入する。
教師付き訓練におけるデータの可用性の限界に対処するために,自己教師付き画像-画像間翻訳タスクの事前学習を利用する。
我々のDepthGenモデルは、屋内のNYUデータセット上で、および屋外のKITTIデータセット上でのSOTA結果に近いSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-02-28T18:08:21Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。