論文の概要: DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2501.02576v1
- Date: Sun, 05 Jan 2025 15:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:14.582277
- Title: DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
- Title(参考訳): DepthMaster: 単眼深度推定のための拡散モデルモデリング
- Authors: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang,
- Abstract要約: 識別深度推定タスクに生成的特徴を適応する単一ステップ拡散モデルを提案する。
2つのモジュールの可能性を完全に活用するために、2段階のトレーニング戦略を採用しています。
本モデルでは, 一般化と詳細保存の観点から最先端の性能を達成し, 各種データセット間の拡散に基づく他の手法よりも優れる。
- 参考スコア(独自算出の注目度): 41.81343543266191
- License:
- Abstract: Monocular depth estimation within the diffusion-denoising paradigm demonstrates impressive generalization ability but suffers from low inference speed. Recent methods adopt a single-step deterministic paradigm to improve inference efficiency while maintaining comparable performance. However, they overlook the gap between generative and discriminative features, leading to suboptimal results. In this work, we propose DepthMaster, a single-step diffusion model designed to adapt generative features for the discriminative depth estimation task. First, to mitigate overfitting to texture details introduced by generative features, we propose a Feature Alignment module, which incorporates high-quality semantic features to enhance the denoising network's representation capability. Second, to address the lack of fine-grained details in the single-step deterministic framework, we propose a Fourier Enhancement module to adaptively balance low-frequency structure and high-frequency details. We adopt a two-stage training strategy to fully leverage the potential of the two modules. In the first stage, we focus on learning the global scene structure with the Feature Alignment module, while in the second stage, we exploit the Fourier Enhancement module to improve the visual quality. Through these efforts, our model achieves state-of-the-art performance in terms of generalization and detail preservation, outperforming other diffusion-based methods across various datasets. Our project page can be found at https://indu1ge.github.io/DepthMaster_page.
- Abstract(参考訳): 拡散デノジングパラダイムにおける単分子深度推定は、印象的な一般化能力を示すが、低い推論速度に悩まされている。
近年の手法では, 比較性能を維持しつつ, 推論効率を向上させるために, 単段階決定論的パラダイムが採用されている。
しかし、彼らは生成的特徴と差別的特徴のギャップを見落とし、最適以下の結果をもたらす。
本研究では,DepthMasterを提案する。DepthMasterは,識別深度推定タスクに生成的特徴を適応させるために設計された単一ステップ拡散モデルである。
まず、生成機能によって導入されたテクスチャ細部へのオーバーフィッティングを緩和するため、高品質なセマンティック機能を組み込んだ特徴調整モジュールを提案し、ネットワークの表現能力を向上する。
次に,低周波構造と高周波詳細を適応的にバランスさせるFourier Enhancementモジュールを提案する。
2つのモジュールの可能性を完全に活用するために、2段階のトレーニング戦略を採用しています。
第1段階では、機能アライメントモジュールでグローバルなシーン構造を学ぶことに集中し、第2段階では、視覚的品質を改善するためにフーリエ拡張モジュールを利用する。
これらの取り組みを通じて、一般化と詳細保存の観点から最先端のパフォーマンスを達成し、様々なデータセットにおける拡散に基づく他の手法よりも優れる。
私たちのプロジェクトページはhttps://indu1ge.github.io/DepthMaster_page.orgにある。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Diffusion Model for Dense Matching [34.13580888014]
ペア画像間の密接な対応を確立する目的は、データ項と先行項の2つの項からなる。
我々はDiffMatchを提案する。DiffMatchは、データと事前条件の両方を明示的にモデル化する新しい条件付き拡散ベースのフレームワークである。
実験の結果,既存の手法に比べて,提案手法の大幅な性能向上が示された。
論文 参考訳(メタデータ) (2023-05-30T14:58:24Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。