論文の概要: Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation
- arxiv url: http://arxiv.org/abs/2406.02347v2
- Date: Wed, 5 Jun 2024 21:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:44:18.517697
- Title: Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation
- Title(参考訳): Flash拡散: 画像生成のための条件付き拡散モデルを高速化する
- Authors: Clement Chadebec, Onur Tasar, Eyal Benaroche, Benjamin Aubin,
- Abstract要約: 本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。
この手法は、COCO2014とCOCO 2017データセット上の画像生成のために、FIDとCLIP-Scoreの観点から最先端のパフォーマンスに達する。
この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$alpha$)などの異なるバックボーンの使用など、いくつかのタスクにまたがる。
- 参考スコア(独自算出の注目度): 2.693650249239372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an efficient, fast, and versatile distillation method to accelerate the generation of pre-trained diffusion models: Flash Diffusion. The method reaches state-of-the-art performances in terms of FID and CLIP-Score for few steps image generation on the COCO2014 and COCO2017 datasets, while requiring only several GPU hours of training and fewer trainable parameters than existing methods. In addition to its efficiency, the versatility of the method is also exposed across several tasks such as text-to-image, inpainting, face-swapping, super-resolution and using different backbones such as UNet-based denoisers (SD1.5, SDXL) or DiT (Pixart-$\alpha$), as well as adapters. In all cases, the method allowed to reduce drastically the number of sampling steps while maintaining very high-quality image generation. The official implementation is available at https://github.com/gojasper/flash-diffusion.
- Abstract(参考訳): 本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。
このメソッドは、COCO2014とCOCO2017データセット上でイメージ生成を行ういくつかのステップにおいて、FIDとCLIP-Scoreの面で最先端のパフォーマンスに達する。
その効率性に加えて、この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$\alpha$)、アダプタなどの異なるバックボーンの使用など、いくつかのタスクにまたがる。
いずれの場合も、非常に高品質な画像生成を維持しながら、サンプリングステップの数を劇的に削減することができる。
公式実装はhttps://github.com/gojasper/flash-diffusion.comで公開されている。
関連論文リスト
- Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
現在の方法では、各画像がノイズ空間全体に拡散し、ノイズ層内の各点で全ての画像が混合される。
Inmiscible Diffusionを提案する。これはノイズデータマッピングのランダムな混合を改善するためのシンプルで効果的な方法である。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - Accelerating Parallel Sampling of Diffusion Models [25.347710690711562]
自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する新しい手法を提案する。
これらの手法を適用したParaTAAは、普遍的でトレーニング不要な並列サンプリングアルゴリズムである。
実験により、ParaTAAは一般的なシーケンシャルサンプリングアルゴリズムで要求される推論ステップを4$sim$14倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-15T14:27:58Z) - One-step Diffusion with Distribution Matching Distillation [50.45103465564635]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。
ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文 参考訳(メタデータ) (2023-05-30T14:28:43Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Improving Diffusion Model Efficiency Through Patching [0.0]
単純なViTスタイルのパッチ変換を追加することで,拡散モデルのサンプリング時間とメモリ使用量を大幅に削減できることがわかった。
我々は,拡散モデル対象の分析とLSUN教会, ImageNet 256, FFHQ 1024における実証実験を通じてアプローチを正当化する。
論文 参考訳(メタデータ) (2022-07-09T18:21:32Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。