論文の概要: Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.20549v1
- Date: Tue, 25 Nov 2025 17:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.588147
- Title: Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning
- Title(参考訳): Flash-DMD:高精細Few-Step画像生成のための高効率蒸留と共同強化学習
- Authors: Guanjie Chen, Shirui Huang, Kai Liu, Jianchen Zhu, Xiaoye Qu, Peng Chen, Yu Cheng, Yifu Sun,
- Abstract要約: 拡散モデル(Diffusion Models)は、生成モデルの主要なクラスとして登場した。
タイムステップ蒸留は、生成を加速する有望な技術であるが、広範囲の訓練を必要とし、画質の劣化につながることが多い。
蒸留と共同RLによる精製による高速収束を実現する新しいフレームワークであるFlash-DMDを紹介する。
- 参考スコア(独自算出の注目度): 32.32567390728913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Models have emerged as a leading class of generative models, yet their iterative sampling process remains computationally expensive. Timestep distillation is a promising technique to accelerate generation, but it often requires extensive training and leads to image quality degradation. Furthermore, fine-tuning these distilled models for specific objectives, such as aesthetic appeal or user preference, using Reinforcement Learning (RL) is notoriously unstable and easily falls into reward hacking. In this work, we introduce Flash-DMD, a novel framework that enables fast convergence with distillation and joint RL-based refinement. Specifically, we first propose an efficient timestep-aware distillation strategy that significantly reduces training cost with enhanced realism, outperforming DMD2 with only $2.1\%$ its training cost. Second, we introduce a joint training scheme where the model is fine-tuned with an RL objective while the timestep distillation training continues simultaneously. We demonstrate that the stable, well-defined loss from the ongoing distillation acts as a powerful regularizer, effectively stabilizing the RL training process and preventing policy collapse. Extensive experiments on score-based and flow matching models show that our proposed Flash-DMD not only converges significantly faster but also achieves state-of-the-art generation quality in the few-step sampling regime, outperforming existing methods in visual quality, human preference, and text-image alignment metrics. Our work presents an effective paradigm for training efficient, high-fidelity, and stable generative models. Codes are coming soon.
- Abstract(参考訳): 拡散モデルが生成モデルの主要なクラスとして登場したが、反復的なサンプリングプロセスは計算的に高価である。
タイムステップ蒸留は、生成を加速する有望な技術であるが、広範囲の訓練を必要とし、画質の劣化につながることが多い。
さらに、美的魅力やユーザ嗜好といった特定の目的のためにこれらの蒸留モデルを微調整する際、強化学習(RL)は不安定であり、容易に報酬のハッキングに陥る。
本稿では,Flash-DMDについて紹介する。Flash-DMDは蒸留と共同RLによる精製による高速収束を実現する新しいフレームワークである。
具体的には, 実効性向上によるトレーニングコストを大幅に削減し, トレーニングコストが2.1 % の DMD2 をはるかに上回る, 効率的なタイムステップ対応蒸留戦略を提案する。
第2に, 時間経過蒸留訓練を同時に継続しながら, モデルにRL目標を微調整するジョイントトレーニング手法を提案する。
本研究は, 連続蒸留による安定的, 明確に定義された損失が, 強力な正則化剤として作用し, RL訓練過程を効果的に安定化し, 政策崩壊を防止できることを実証する。
スコアベースおよびフローマッチングモデルに関する大規模な実験により、提案したFlash-DMDは、より高速に収束するだけでなく、数ステップのサンプリングシステムにおける最先端の品質を実現し、視覚的品質、人間の嗜好、テキスト画像アライメントの既存の手法よりも優れていた。
本研究は, 効率的, 高忠実, 安定な生成モデルの学習に有効なパラダイムを提案する。
コードももうすぐ来る。
関連論文リスト
- Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation [2.3359837623080613]
本研究は,拡散訓練を生成前訓練の一形態と見なすことができることを示す。
パラメータの85%が凍結した事前学習モデルの微調整により、ワンステップ生成モデルを作成する。
論文 参考訳(メタデータ) (2025-06-11T03:55:26Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。