論文の概要: DPBridge: Latent Diffusion Bridge for Dense Prediction
- arxiv url: http://arxiv.org/abs/2412.20506v3
- Date: Mon, 19 May 2025 13:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.36128
- Title: DPBridge: Latent Diffusion Bridge for Dense Prediction
- Title(参考訳): DPBridge - 密度予測のための潜伏拡散橋
- Authors: Haorui Ji, Taojun Lin, Hongdong Li,
- Abstract要約: DPBridgeは、密度予測タスクのための最初の潜伏拡散ブリッジフレームワークである。
提案手法は,異なるシナリオ下での有効性と能力の一般化を実証し,優れた性能を継続的に達成する。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models demonstrate remarkable capabilities in capturing complex data distributions and have achieved compelling results in many generative tasks. While they have recently been extended to dense prediction tasks such as depth estimation and surface normal prediction, their full potential in this area remains under-explored. In dense prediction settings, target signal maps and input images are pixel-wise aligned. This makes conventional noise-to-data generation paradigm inefficient, as input images can serve as more informative prior compared to pure noise. Diffusion bridge models, which support data-to-data generation between two general data distributions, offer a promising alternative, but they typically fail to exploit the rich visual priors embedded in large pretrained foundation models. To address these limitations, we integrate diffusion bridge formulation with structured visual priors and introduce DPBridge, the first latent diffusion bridge framework for dense prediction tasks. Our method presents three key contributions: (1) a tractable reverse transition kernel for diffusion bridge process, enabling maximum likelihood training scheme for better compatibility with pretrained backbones; (2) a distribution-aligned normalization technique to mitigate the discrepancies between the bridge and standard diffusion processes; and (3) an auxiliary image consistency loss to preserve fine-grained details. Experiments across extensive benchmarks validate that our method consistently achieves superior performance, demonstrating its effectiveness and generalization capability under different scenarios.
- Abstract(参考訳): 拡散モデルは、複雑なデータ分布をキャプチャする際、顕著な能力を示し、多くの生成タスクにおいて魅力的な結果を得た。
最近、深度推定や表面正規予測のような密集した予測タスクに拡張されているが、この領域におけるその潜在能力はいまだ未解明のままである。
密集した予測設定では、ターゲット信号マップと入力画像はピクセルワイドにアライメントされる。
これにより、入力画像が純粋なノイズよりも情報的になるため、従来のノイズ・データ生成パラダイムは非効率になる。
2つの一般的なデータ分散間のデータ間データ生成をサポートする拡散ブリッジモデルは、有望な代替手段を提供するが、大きな事前訓練された基礎モデルに埋め込まれたリッチな視覚的事前を利用できないのが普通である。
これらの制約に対処するため、我々は拡散橋の定式化を構造化された視覚的先行要素と統合し、密度予測タスクのための最初の潜伏拡散橋フレームワークであるDMBridgeを導入する。
提案手法は,(1)拡散ブリッジプロセスのためのトラクタブル逆遷移カーネル,(2)橋梁と標準拡散プロセスの相違を緩和する分布整合正規化手法,(3)細かな詳細を保存するための補助画像の整合性損失の3つの重要な寄与を提示する。
広範囲なベンチマーク実験により,提案手法が常に優れた性能を達成し,その有効性と,異なるシナリオ下での一般化能力を実証した。
関連論文リスト
- An Ordinary Differential Equation Sampler with Stochastic Start for Diffusion Bridge Models [13.00429687431982]
拡散ブリッジモデルは、純粋なガウスノイズではなく、劣化した画像から生成過程を初期化する。
既存の拡散ブリッジモデルは、しばしば微分方程式のサンプリングに頼り、推論速度が遅くなる。
拡散ブリッジモデルの開始点を有する高次ODEサンプリング器を提案する。
本手法は, 既訓練拡散ブリッジモデルと完全に互換性があり, 追加の訓練は不要である。
論文 参考訳(メタデータ) (2024-12-28T03:32:26Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Exploring the Design Space of Diffusion Bridge Models via Stochasticity Control [17.464174698465918]
拡散ブリッジモデルは2つの分布を接続することで画像から画像への変換(I2I)を容易にする。
既存の手法では,SDE,トランジションカーネル,ベース分布がサンプリング効率,画質,多様性に与える影響を見落としている。
本稿では,拡散橋の設計空間を拡張し,トレーニングとサンプリングの双方において特異性を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-10-28T21:30:59Z) - A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。
しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。
本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文 参考訳(メタデータ) (2024-10-23T15:34:06Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [36.65594293655289]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - DepthFM: Fast Monocular Depth Estimation with Flow Matching [22.206355073676082]
現在の識別的深さ推定法は、しばしばぼやけた人工物を生成するが、生成的アプローチはノイズ・ツー・ディープ・トランスポートの曲率によるサンプリングが遅い。
本手法は,画像と深度分布間の直接輸送として深度推定をフレーミングすることで,これらの課題に対処する。
提案手法は, 複雑な自然シーンの標準ベンチマークにおいて, サンプリング効率を向上し, 学習に最小限の合成データしか必要とせず, 競争力のあるゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-03-20T17:51:53Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。