論文の概要: DiffIER: Optimizing Diffusion Models with Iterative Error Reduction
- arxiv url: http://arxiv.org/abs/2508.13628v1
- Date: Tue, 19 Aug 2025 08:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.853076
- Title: DiffIER: Optimizing Diffusion Models with Iterative Error Reduction
- Title(参考訳): DiffiER:反復誤差低減による拡散モデルの最適化
- Authors: Ao Chen, Lihe Ding, Tianfan Xue,
- Abstract要約: 高品質な生成のための最適化手法であるDiffIERを提案する。
本稿では,各ステップにおける反復誤差最小化により,累積誤差を効果的に低減できることを実証する。
この方法は、テキスト・ツー・イメージ生成、画像超解像、テキスト・ツー・音声生成において一貫した成功を達成する。
- 参考スコア(独自算出の注目度): 5.8001410709048695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated remarkable capabilities in generating high-quality samples and enhancing performance across diverse domains through Classifier-Free Guidance (CFG). However, the quality of generated samples is highly sensitive to the selection of the guidance weight. In this work, we identify a critical ``training-inference gap'' and we argue that it is the presence of this gap that undermines the performance of conditional generation and renders outputs highly sensitive to the guidance weight. We quantify this gap by measuring the accumulated error during the inference stage and establish a correlation between the selection of guidance weight and minimizing this gap. Furthermore, to mitigate this gap, we propose DiffIER, an optimization-based method for high-quality generation. We demonstrate that the accumulated error can be effectively reduced by an iterative error minimization at each step during inference. By introducing this novel plug-and-play optimization framework, we enable the optimization of errors at every single inference step and enhance generation quality. Empirical results demonstrate that our proposed method outperforms baseline approaches in conditional generation tasks. Furthermore, the method achieves consistent success in text-to-image generation, image super-resolution, and text-to-speech generation, underscoring its versatility and potential for broad applications in future research.
- Abstract(参考訳): 拡散モデルは、分類自由誘導(CFG)を通して、高品質なサンプルを生成し、様々な領域で性能を向上させる際、顕著な能力を示した。
しかし, 生成試料の品質は誘導重量の選択に非常に敏感である。
本研究では,「トレーニングと推論のギャップ」を重要視し,条件生成の性能を損なうこのギャップの存在を論じ,ガイダンスの重みに非常に敏感な出力を出力する。
推定段階における累積誤差を測定してこのギャップを定量化し、ガイダンスウェイトの選択とこのギャップの最小化の相関性を確立する。
さらに,このギャップを緩和するために,高品質な生成のための最適化手法であるDiffIERを提案する。
本稿では,各ステップにおける反復誤差最小化により,累積誤差を効果的に低減できることを実証する。
この新しいプラグイン・アンド・プレイ最適化フレームワークを導入することで、各推論ステップにおけるエラーの最適化が可能になり、生成品質が向上する。
実験結果から,提案手法は条件生成タスクにおけるベースラインアプローチよりも優れていることが示された。
さらに,テキスト・ツー・イメージ生成,画像超解像,テキスト・トゥ・音声生成において一貫した成功を達成し,その汎用性と将来的な応用の可能性を示す。
関連論文リスト
- S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models [26.723485624790523]
S2-Guidanceは、フォワードプロセス中のブロックドロップを利用してサブネットワークを構築する新しい方法である。
テキスト・ツー・イメージおよびテキスト・ツー・ビデオ生成タスクの実験は、S2-Guidanceが優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2025-08-18T12:31:20Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Amortized Posterior Sampling with Diffusion Prior Distillation [55.03585818289934]
Amortized Posterior Smplingは、逆問題における効率的な後方サンプリングのための新しい変分推論手法である。
本手法は,拡散モデルにより暗黙的に定義された変動分布と後続分布とのばらつきを最小限に抑えるために条件付き流れモデルを訓練する。
既存の手法とは異なり、我々のアプローチは教師なしであり、ペア化されたトレーニングデータを必要としておらず、ユークリッドと非ユークリッドの両方のドメインに適用できる。
論文 参考訳(メタデータ) (2024-07-25T09:53:12Z) - DifAugGAN: A Practical Diffusion-style Data Augmentation for GAN-based
Single Image Super-resolution [88.13972071356422]
本稿では,DifAugGAN として知られる GAN ベースの画像超解像法(SR) のための拡散型データ拡張手法を提案する。
それは、訓練中の判別器の校正を改善するために、生成拡散モデルに拡散過程を適用することを含む。
我々のDifAugGANは、現在のGANベースのSISR手法のプラグ・アンド・プレイ戦略であり、判別器の校正を改善し、SR性能を向上させることができる。
論文 参考訳(メタデータ) (2023-11-30T12:37:53Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。