論文の概要: Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator
- arxiv url: http://arxiv.org/abs/2410.04224v3
- Date: Sun, 09 Mar 2025 16:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:41:16.658201
- Title: Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator
- Title(参考訳): 大規模拡散判別器による1ステップ拡散に基づく画像超解像の解像
- Authors: Jianze Li, Jiezhang Cao, Zichen Zou, Xiongfei Su, Xin Yuan, Yulun Zhang, Yong Guo, Xiaokang Yang,
- Abstract要約: 拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
- 参考スコア(独自算出の注目度): 81.81748032199813
- License:
- Abstract: Diffusion models have demonstrated excellent performance for real-world image super-resolution (Real-ISR), albeit at high computational costs. Most existing methods are trying to derive one-step diffusion models from multi-step counterparts through knowledge distillation (KD) or variational score distillation (VSD). However, these methods are limited by the capabilities of the teacher model, especially if the teacher model itself is not sufficiently strong. To tackle these issues, we propose a new One-Step \textbf{D}iffusion model with a larger-scale \textbf{D}iffusion \textbf{D}iscriminator for SR, called D$^3$SR. Our discriminator is able to distill noisy features from any time step of diffusion models in the latent space. In this way, our diffusion discriminator breaks through the potential limitations imposed by the presence of a teacher model. Additionally, we improve the perceptual loss with edge-aware DISTS (EA-DISTS) to enhance the model's ability to generate fine details. Our experiments demonstrate that, compared with previous diffusion-based methods requiring dozens or even hundreds of steps, our D$^3$SR attains comparable or even superior results in both quantitative metrics and qualitative evaluations. Moreover, compared with other methods, D$^3$SR achieves at least $3\times$ faster inference speed and reduces parameters by at least 30\%. We will release code and models at https://github.com/JianzeLi-114/D3SR.
- Abstract(参考訳): 拡散モデルは実世界の超解像(Real-ISR)に対して高い計算コストで優れた性能を示した。
既存の手法の多くは、知識蒸留(KD)や変動スコア蒸留(VSD)を通じて、多段階の拡散モデルから一段階の拡散モデルを引き出そうとしている。
しかし,これらの手法は,特に教師モデル自体が十分に強くない場合には,教師モデルの能力によって制限される。
これらの問題に対処するために、我々は、D$3$SR と呼ばれるSRのためのより大規模な \textbf{D}iffusion \textbf{D}iscriminator を備えた新しいOne-Step \textbf{D}iffusionモデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
このようにして、拡散判別器は教師モデルの存在によって課される潜在的な制約を突破する。
さらに、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
我々のD$3$SRは,従来の拡散法と比較して,測定値と定性評価の両面で同等あるいはそれ以上の結果が得られることを示した。
さらに、他の手法と比較して、D$^3$SRは少なくとも$3\times$高速な推論速度を実現し、パラメータを少なくとも30\%削減する。
コードとモデルはhttps://github.com/JianzeLi-114/D3SRでリリースします。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance [12.973835034100428]
本稿では, SNOOPIについて述べる。SNOOPIは, トレーニングと推論の双方において, ワンステップ拡散モデルのガイダンスを高めるために設計された新しいフレームワークである。
両教師モデルの指導尺度を変化させることで、出力分布を拡大し、より堅牢なVSD損失が発生し、SBは競争性能を維持しつつ、多様なバックボーンを効果的に実行できる。
第2に、負のプロンプトを1段階拡散モデルに統合して、生成した画像中の望ましくない要素を抑圧する、負のアウェイステア注意(Negative-Away Steer Attention, NASA)と呼ばれるトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z) - Relational Diffusion Distillation for Efficient Image Generation [27.127061578093674]
拡散モデルの高い遅延は、コンピューティングリソースの少ないエッジデバイスにおいて、その広範な応用を妨げる。
本研究では,拡散モデルの蒸留に適した新しい蒸留法である拡散蒸留(RDD)を提案する。
提案したRDDは, 最先端の蒸留蒸留法と比較すると1.47FID減少し, 256倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-10-10T07:40:51Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。