Fugu-MT 論文翻訳(概要): Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator

論文の概要: Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator

arxiv url: http://arxiv.org/abs/2410.04224v3
Date: Sun, 09 Mar 2025 16:37:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:43.805043
Title: Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator
Title（参考訳）: 大規模拡散判別器による1ステップ拡散に基づく画像超解像の解像
Authors: Jianze Li, Jiezhang Cao, Zichen Zou, Xiongfei Su, Xin Yuan, Yulun Zhang, Yong Guo, Xiaokang Yang,
Abstract要約: 拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
参考スコア（独自算出の注目度）: 81.81748032199813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have demonstrated excellent performance for real-world image super-resolution (Real-ISR), albeit at high computational costs. Most existing methods are trying to derive one-step diffusion models from multi-step counterparts through knowledge distillation (KD) or variational score distillation (VSD). However, these methods are limited by the capabilities of the teacher model, especially if the teacher model itself is not sufficiently strong. To tackle these issues, we propose a new One-Step \textbf{D}iffusion model with a larger-scale \textbf{D}iffusion \textbf{D}iscriminator for SR, called D$^3$SR. Our discriminator is able to distill noisy features from any time step of diffusion models in the latent space. In this way, our diffusion discriminator breaks through the potential limitations imposed by the presence of a teacher model. Additionally, we improve the perceptual loss with edge-aware DISTS (EA-DISTS) to enhance the model's ability to generate fine details. Our experiments demonstrate that, compared with previous diffusion-based methods requiring dozens or even hundreds of steps, our D$^3$SR attains comparable or even superior results in both quantitative metrics and qualitative evaluations. Moreover, compared with other methods, D$^3$SR achieves at least $3\times$ faster inference speed and reduces parameters by at least 30\%. We will release code and models at https://github.com/JianzeLi-114/D3SR.
Abstract（参考訳）: 拡散モデルは実世界の超解像(Real-ISR)に対して高い計算コストで優れた性能を示した。既存の手法の多くは、知識蒸留(KD)や変動スコア蒸留(VSD)を通じて、多段階の拡散モデルから一段階の拡散モデルを引き出そうとしている。しかし,これらの手法は,特に教師モデル自体が十分に強くない場合には,教師モデルの能力によって制限される。これらの問題に対処するために、我々は、D$3$SR と呼ばれるSRのためのより大規模な \textbf{D}iffusion \textbf{D}iscriminator を備えた新しいOne-Step \textbf{D}iffusionモデルを提案する。我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。このようにして、拡散判別器は教師モデルの存在によって課される潜在的な制約を突破する。さらに、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。我々のD$3$SRは,従来の拡散法と比較して,測定値と定性評価の両面で同等あるいはそれ以上の結果が得られることを示した。さらに、他の手法と比較して、D$^3$SRは少なくとも$3\times$高速な推論速度を実現し、パラメータを少なくとも30\%削減する。コードとモデルはhttps://github.com/JianzeLi-114/D3SRでリリースします。

関連論文リスト

Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation [2.3359837623080613]
本研究は,拡散訓練を生成前訓練の一形態と見なすことができることを示す。パラメータの85%が凍結した事前学習モデルの微調整により、ワンステップ生成モデルを作成する。
論文参考訳（メタデータ） (2025-06-11T03:55:26Z)
One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文参考訳（メタデータ） (2025-02-04T04:11:29Z)
SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance [12.973835034100428]
本稿では, SNOOPIについて述べる。SNOOPIは, トレーニングと推論の双方において, ワンステップ拡散モデルのガイダンスを高めるために設計された新しいフレームワークである。両教師モデルの指導尺度を変化させることで、出力分布を拡大し、より堅牢なVSD損失が発生し、SBは競争性能を維持しつつ、多様なバックボーンを効果的に実行できる。第2に、負のプロンプトを1段階拡散モデルに統合して、生成した画像中の望ましくない要素を抑圧する、負のアウェイステア注意(Negative-Away Steer Attention, NASA)と呼ばれるトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2024-12-03T18:56:32Z)
Relational Diffusion Distillation for Efficient Image Generation [27.127061578093674]
拡散モデルの高い遅延は、コンピューティングリソースの少ないエッジデバイスにおいて、その広範な応用を妨げる。本研究では,拡散モデルの蒸留に適した新しい蒸留法である拡散蒸留(RDD)を提案する。提案したRDDは, 最先端の蒸留蒸留法と比較すると1.47FID減少し, 256倍の高速化を実現した。
論文参考訳（メタデータ） (2024-10-10T07:40:51Z)
One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文参考訳（メタデータ） (2024-08-14T11:47:22Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
SFDDM: Single-fold Distillation for Diffusion models [4.688721356965585]
本研究では,教師の拡散モデルを任意のステップの生徒モデルに柔軟に圧縮できる一次元蒸留アルゴリズムSFDDMを提案する。 4つのデータセットの実験では、SFDDMは、ステップを約1%に減らした高品質なデータをサンプリングできることが示されている。
論文参考訳（メタデータ） (2024-05-23T18:11:14Z)
Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。 E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文参考訳（メタデータ） (2024-05-09T17:59:40Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
You Only Need One Step: Fast Super-Resolution with Stable Diffusion via Scale Distillation [42.599077240711]
YONOS-SRは、画像超解像に対する安定拡散に基づくアプローチであり、単一のDDIMステップのみを用いて最先端の結果を得る。 SRモデルの学習のための新しいスケール蒸留手法を提案する。
論文参考訳（メタデータ） (2024-01-30T18:49:44Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2023-11-23T16:21:29Z)
Reducing Spatial Fitting Error in Distillation of Denoising Diffusion Models [13.364271265023953]
拡散モデルの知識蒸留は、この制限に短いサンプリングプロセスで対処する有効な方法である。本研究は,教師モデルと学生モデルの両方のトレーニングにおいて発生する空間的適合誤差に起因する。 SFERDは教師モデルと設計した意味的勾配予測器からの注意誘導を利用して、学生の適合誤差を低減する。 CIFAR-10で5.31、ImageNet 64$times$64で9.39のFIDを実現する。
論文参考訳（メタデータ） (2023-11-07T09:19:28Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。