論文の概要: BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2407.17952v1
- Date: Thu, 25 Jul 2024 11:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:18:40.985511
- Title: BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
- Title(参考訳): BetterDepth:ゼロショット単眼深度推定のためのプラグアンドプレイ拡散精錬器
- Authors: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers,
- Abstract要約: BetterDepthは、事前訓練されたMDEモデルからの予測を深度条件として取り込む条件拡散ベースの精錬機である。
小規模合成データセットの効率的なトレーニングにより、BetterDepthは最先端のゼロショットMDEパフォーマンスを実現する。
BetterDepthは、追加のトレーニングをすることなく、プラグイン・アンド・プレイで他のMDEモデルの性能を改善することができる。
- 参考スコア(独自算出の注目度): 25.047835960649167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficiently precise details. Although recent diffusion-based MDE approaches exhibit appealing detail extraction ability, they still struggle in geometrically challenging scenes due to the difficulty of gaining robust geometric priors from diverse datasets. To leverage the complementary merits of both worlds, we propose BetterDepth to efficiently achieve geometrically correct affine-invariant MDE performance while capturing fine-grained details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth context is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure the faithfulness of BetterDepth to depth conditioning while learning to capture fine-grained scene details. By efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without additional re-training.
- Abstract(参考訳): 大規模データセット上でのトレーニングにより、ゼロショット単眼深度推定(MDE)手法は、野生では堅牢な性能を示すが、正確な詳細が不十分な場合が多い。
拡散に基づく最近のMDE手法は、細部抽出能力に優れているが、多様なデータセットから堅牢な幾何学的先行性を得るのが困難であるため、幾何的に困難な場面に苦戦している。
両世界の相補的な利点を活用するため,精密な詳細を捉えつつ,幾何的に正しいアフィン不変のMDE性能を実現するためのBetterDepthを提案する。
具体的には、BetterDepthは、事前訓練されたMDEモデルからの予測を深度条件付けとして、大域深度コンテキストを適切にキャプチャし、入力画像に基づいて詳細を反復的に洗練する条件拡散ベースの精錬機である。
このようなリファインダのトレーニングのために,細かなシーンの詳細を捉えながら深度条件付けにBetterDepthの忠実さを確保するために,グローバルな事前調整と局所パッチマスキング手法を提案する。
小規模の合成データセットの効率的なトレーニングにより、BetterDepthは、さまざまなパブリックデータセットとインザワイルドシーン上で、最先端のゼロショットMDEパフォーマンスを達成する。
さらに、BetterDepthは他のMDEモデルの性能を追加のトレーニングなしでプラグアンドプレイで改善することができる。
関連論文リスト
- Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation [0.0]
本稿では,学習可能なモジュールAdaptive Discrete Disparity Volume (ADDV)を提案する。
ADDVは異なるRGB画像の深さ分布を動的に感知し、適応的なビンを生成することができる。
また、自己監督型条件下での正規化を実現するために、新しいトレーニング戦略(統一化と強化)も導入する。
論文 参考訳(メタデータ) (2024-04-04T04:22:25Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - PCDepth: Pattern-based Complementary Learning for Monocular Depth
Estimation by Best of Both Worlds [15.823230141827358]
イベントカメラは、高時間分解能でシーンダイナミクスを記録し、単眼深度推定のためのリッチなシーン詳細を提供する。
MDEの既存の補完学習アプローチは、画像からの強度情報とイベントデータからのシーン詳細を融合して、シーン理解を改善する。
単眼深度推定(PCDepth)のためのパターンベース補完学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-29T07:31:59Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model [34.85279074665031]
単眼深度推定法は標準ベンチマークで大きく進歩したが、ゼロショット距離深度推定は未解決のままである。
近年,屋内と屋外のシーンを共同でモデリングするためのマルチヘッドアーキテクチャが提案されている。
我々は、ログスケールの深さパラメータ化などのいくつかの進歩を伴って、汎用的なタスクに依存しない拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:47Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Fully Self-Supervised Depth Estimation from Defocus Clue [79.63579768496159]
スパース焦点スタックから深度を純粋に推定する自己教師型フレームワークを提案する。
筆者らのフレームワークは,深度とAIF画像の接地構造の必要性を回避し,より優れた予測を得られることを示す。
論文 参考訳(メタデータ) (2023-03-19T19:59:48Z) - Dense Depth Distillation with Out-of-Distribution Simulated Images [30.79756881887895]
単分子深度推定(MDE)のためのデータフリー知識蒸留(KD)について検討する。
KDは、訓練された教師モデルからそれを圧縮し、対象領域でのトレーニングデータを欠くことにより、現実世界の深度知覚タスクの軽量モデルを学ぶ。
提案手法は, トレーニング画像の1/6に留まらず, ベースラインKDのマージンが良好であり, 性能も若干向上していることを示す。
論文 参考訳(メタデータ) (2022-08-26T07:10:01Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。