論文の概要: You Only Need One Step: Fast Super-Resolution with Stable Diffusion via
Scale Distillation
- arxiv url: http://arxiv.org/abs/2401.17258v1
- Date: Tue, 30 Jan 2024 18:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 13:42:42.061464
- Title: You Only Need One Step: Fast Super-Resolution with Stable Diffusion via
Scale Distillation
- Title(参考訳): 一つのステップしか必要としない: スケール蒸留による安定拡散による高速超解法
- Authors: Mehdi Noroozi, Isma Hadji, Brais Martinez, Adrian Bulat and Georgios
Tzimiropoulos
- Abstract要約: YONOS-SRは、画像超解像に対する安定拡散に基づくアプローチであり、単一のDDIMステップのみを用いて最先端の結果を得る。
SRモデルの学習のための新しいスケール蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 42.599077240711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce YONOS-SR, a novel stable diffusion-based approach
for image super-resolution that yields state-of-the-art results using only a
single DDIM step. We propose a novel scale distillation approach to train our
SR model. Instead of directly training our SR model on the scale factor of
interest, we start by training a teacher model on a smaller magnification
scale, thereby making the SR problem simpler for the teacher. We then train a
student model for a higher magnification scale, using the predictions of the
teacher as a target during the training. This process is repeated iteratively
until we reach the target scale factor of the final model. The rationale behind
our scale distillation is that the teacher aids the student diffusion model
training by i) providing a target adapted to the current noise level rather
than using the same target coming from ground truth data for all noise levels
and ii) providing an accurate target as the teacher has a simpler task to
solve. We empirically show that the distilled model significantly outperforms
the model trained for high scales directly, specifically with few steps during
inference. Having a strong diffusion model that requires only one step allows
us to freeze the U-Net and fine-tune the decoder on top of it. We show that the
combination of spatially distilled U-Net and fine-tuned decoder outperforms
state-of-the-art methods requiring 200 steps with only one single step.
- Abstract(参考訳): 本稿では,画像超解像のための新しい安定拡散法であるYONOS-SRについて紹介する。
SRモデルの学習のための新しいスケール蒸留手法を提案する。
興味のある尺度でSRモデルを直接訓練するのではなく、より小さな倍率スケールで教師モデルを訓練することで、教師にとってSR問題はより簡単になる。
そして,教師の予測を目標として,高倍率化のための学習モデルを構築した。
このプロセスは、最終モデルのターゲットスケールファクタに到達するまで反復的に繰り返されます。
スケール蒸留の背景にある理論的根拠は、教師が学生拡散モデルトレーニングを支援することである。
一 現在の騒音レベルに適合する目標を、すべての騒音レベルについて、地上の真実データから来る同じ目標を使用するのではなく、提供すること
二 教師がより簡単な課題を有するため、的確な目標を提供すること。
実験により, 蒸留モデルは, 高いスケールで直接訓練されたモデル, 特に, 推理中のわずかなステップを上回ることを示した。
1ステップしか必要としない強力な拡散モデルを持つことで、U-Netを凍結し、その上にデコーダを微調整することができます。
空間蒸留されたU-Netと微調整デコーダの組み合わせは, 単一ステップで200ステップ必要となる最先端の手法より優れていた。
関連論文リスト
- Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。
本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs [20.652907645817713]
OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。
我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
論文 参考訳(メタデータ) (2024-12-12T17:14:58Z) - SFDDM: Single-fold Distillation for Diffusion models [4.688721356965585]
本研究では,教師の拡散モデルを任意のステップの生徒モデルに柔軟に圧縮できる一次元蒸留アルゴリズムSFDDMを提案する。
4つのデータセットの実験では、SFDDMは、ステップを約1%に減らした高品質なデータをサンプリングできることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:11:14Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。