論文の概要: Digging into contrastive learning for robust depth estimation with diffusion models
- arxiv url: http://arxiv.org/abs/2404.09831v3
- Date: Sun, 19 May 2024 11:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 22:31:13.236063
- Title: Digging into contrastive learning for robust depth estimation with diffusion models
- Title(参考訳): 拡散モデルを用いた頑健な深度推定のためのコントラスト学習
- Authors: Jiyuan Wang, Chunyu Lin, Lang Nie, Kang Liao, Shuwei Shao, Yao Zhao,
- Abstract要約: そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
D4RDは、合成汚職と現実世界の気象条件に関する既存の最先端のソリューションを超越している。
- 参考スコア(独自算出の注目度): 55.62276027922499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion-based depth estimation methods have drawn widespread attention due to their elegant denoising patterns and promising performance. However, they are typically unreliable under adverse conditions prevalent in real-world scenarios, such as rainy, snowy, etc. In this paper, we propose a novel robust depth estimation method called D4RD, featuring a custom contrastive learning mode tailored for diffusion models to mitigate performance degradation in complex environments. Concretely, we integrate the strength of knowledge distillation into contrastive learning, building the `trinity' contrastive scheme. This scheme utilizes the sampled noise of the forward diffusion process as a natural reference, guiding the predicted noise in diverse scenes toward a more stable and precise optimum. Moreover, we extend noise-level trinity to encompass more generic feature and image levels, establishing a multi-level contrast to distribute the burden of robust perception across the overall network. Before addressing complex scenarios, we enhance the stability of the baseline diffusion model with three straightforward yet effective improvements, which facilitate convergence and remove depth outliers. Extensive experiments demonstrate that D4RD surpasses existing state-of-the-art solutions on synthetic corruption datasets and real-world weather conditions. The code for D4RD will be made available for further exploration and adoption.
- Abstract(参考訳): 近年, 拡散型深度推定法は, エレガントなデノナイジングパターンと有望な性能により, 広く注目を集めている。
しかし、雨や雪などの現実のシナリオでよく見られる悪条件下では、信頼できないのが普通である。
本稿では,複雑な環境における性能劣化を軽減するために,拡散モデルに適した独自のコントラスト学習モードを備えた,D4RDと呼ばれる新しい頑健な深度推定手法を提案する。
具体的には、知識蒸留の強みを対照的な学習に統合し、「真性」の対照的なスキームを構築する。
このスキームは前方拡散過程のサンプルノイズを自然参照として利用し、様々な場面で予測されたノイズをより安定かつ正確な最適化に向けて導く。
さらに、より汎用的な特徴や画像レベルを包含する雑音レベルトリニティを拡張し、マルチレベルコントラストを確立し、ネットワーク全体にわたって頑健な知覚の重荷を分散する。
複雑なシナリオに対処する前に、3つの単純かつ効果的な改善によりベースライン拡散モデルの安定性を高め、収束を容易にし、奥行きの外れを除去する。
大規模な実験により、D4RDは、合成汚職データセットや現実世界の気象条件に関する既存の最先端のソリューションを超越していることが示された。
D4RDのコードは、さらなる調査と採用のために利用可能になる予定である。
関連論文リスト
- Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [21.939618694037108]
教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。
このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - Global Structure-Aware Diffusion Process for Low-Light Image Enhancement [64.69154776202694]
本稿では,低照度画像強調問題に対処する拡散型フレームワークについて検討する。
我々は、その固有のODE-軌道の正規化を提唱する。
実験により,提案手法は低照度化において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-26T17:01:52Z) - Seismic Data Interpolation based on Denoising Diffusion Implicit Models
with Resampling [8.806557897730137]
そこで本稿では,再サンプリングによる暗黙的拡散モデルを提案する。
モデル推論は、既知のトレースの条件付けである拡散暗黙モデルを利用して、拡散ステップの少ない高品質な定量化を可能にする。
論文 参考訳(メタデータ) (2023-07-09T16:37:47Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。