論文の概要: DEFT: Efficient Finetuning of Conditional Diffusion Models by Learning the Generalised $h$-transform
- arxiv url: http://arxiv.org/abs/2406.01781v1
- Date: Mon, 3 Jun 2024 20:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:52:25.161566
- Title: DEFT: Efficient Finetuning of Conditional Diffusion Models by Learning the Generalised $h$-transform
- Title(参考訳): DEFT:一般化された$h$-変換学習による条件拡散モデルの効率的な微調整
- Authors: Alexander Denker, Francisco Vargas, Shreyas Padhy, Kieran Didi, Simon Mathis, Vincent Dutordoir, Riccardo Barbano, Emile Mathieu, Urszula Julia Komorowska, Pietro Lio,
- Abstract要約: DFT(Doob's h-transform Efficient FineTuning)は、非常に小さなネットワークを微調整して条件付き$h$-transformを高速に学習する条件生成手法である。
画像再構成作業では, 自然画像の知覚品質と医用画像の再現性能を最良に保ちながら, 最大1.6$times$の高速化を実現している。
- 参考スコア(独自算出の注目度): 44.29325094229024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative modelling paradigms based on denoising diffusion processes have emerged as a leading candidate for conditional sampling in inverse problems. In many real-world applications, we often have access to large, expensively trained unconditional diffusion models, which we aim to exploit for improving conditional sampling. Most recent approaches are motivated heuristically and lack a unifying framework, obscuring connections between them. Further, they often suffer from issues such as being very sensitive to hyperparameters, being expensive to train or needing access to weights hidden behind a closed API. In this work, we unify conditional training and sampling using the mathematically well-understood Doob's h-transform. This new perspective allows us to unify many existing methods under a common umbrella. Under this framework, we propose DEFT (Doob's h-transform Efficient FineTuning), a new approach for conditional generation that simply fine-tunes a very small network to quickly learn the conditional $h$-transform, while keeping the larger unconditional network unchanged. DEFT is much faster than existing baselines while achieving state-of-the-art performance across a variety of linear and non-linear benchmarks. On image reconstruction tasks, we achieve speedups of up to 1.6$\times$, while having the best perceptual quality on natural images and reconstruction performance on medical images.
- Abstract(参考訳): 退化拡散過程に基づく生成的モデリングパラダイムが,逆問題における条件付きサンプリングの第一候補として浮上している。
実世界の多くのアプリケーションでは、高価に訓練された大規模無条件拡散モデルにアクセスでき、条件付きサンプリングの改善に活用することを目的としている。
最近のアプローチはヒューリスティックに動機付けられており、それら間の接続を隠蔽する統一されたフレームワークが欠如している。
さらに、ハイパーパラメータに非常に敏感であること、トレーニングにコストがかかること、あるいはクローズドAPIの背後に隠されたウェイトへのアクセスが必要なこと、といった問題に悩まされることも少なくない。
本研究では,数学的によく理解されたDoobのh-transformを用いて条件付きトレーニングとサンプリングを統一する。
この新たな視点は、共通の傘の下で既存のメソッドを統一することを可能にする。
本フレームワークでは,条件付きネットワークを高速に学習し,大きめの条件付きネットワークを維持しつつ,非常に小さなネットワークを微調整する,条件付き生成のための新しいアプローチであるDEFT(Doob's h-transform Efficient FineTuning)を提案する。
DEFTは既存のベースラインよりもはるかに高速で、様々な線形および非線形のベンチマークで最先端のパフォーマンスを実現している。
画像再構成作業では, 自然画像の知覚品質と医用画像の再現性能に優れ, 最大1.6$\times$の高速化を実現している。
関連論文リスト
- CoSIGN: Few-Step Guidance of ConSIstency Model to Solve General INverse Problems [3.3969056208620128]
我々は, 高い復元品質を維持しつつ, 推論ステップの境界を1-2 NFEに推し進めることを提案する。
本手法は拡散型逆問題解法における新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-07-17T15:57:50Z) - Fast Samplers for Inverse Problems in Iterative Refinement Models [19.099632445326826]
逆問題に対する効率的なサンプル作成のためのプラグイン・アンド・プレイフレームワークを提案する。
提案手法は,5段階の条件付きサンプリングステップで高品質なサンプルを生成でき,20~1000段の基準ラインよりも優れる。
論文 参考訳(メタデータ) (2024-05-27T21:50:16Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Variational Bayes image restoration with compressive autoencoders [5.514022022280169]
逆問題の正規化は、計算イメージングにおいて最重要となる。
最先端のプラグアンドプレイ法は、ニューラルデノイザによって提供される暗黙の正規化に依存している。
本稿では,潜時推定を行う変分ベイズ潜時推定(VBLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-29T15:49:31Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。