論文の概要: Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation
- arxiv url: http://arxiv.org/abs/2406.02347v2
- Date: Wed, 5 Jun 2024 21:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:44:18.517697
- Title: Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation
- Title(参考訳): Flash拡散: 画像生成のための条件付き拡散モデルを高速化する
- Authors: Clement Chadebec, Onur Tasar, Eyal Benaroche, Benjamin Aubin,
- Abstract要約: 本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。
この手法は、COCO2014とCOCO 2017データセット上の画像生成のために、FIDとCLIP-Scoreの観点から最先端のパフォーマンスに達する。
この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$alpha$)などの異なるバックボーンの使用など、いくつかのタスクにまたがる。
- 参考スコア(独自算出の注目度): 2.693650249239372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an efficient, fast, and versatile distillation method to accelerate the generation of pre-trained diffusion models: Flash Diffusion. The method reaches state-of-the-art performances in terms of FID and CLIP-Score for few steps image generation on the COCO2014 and COCO2017 datasets, while requiring only several GPU hours of training and fewer trainable parameters than existing methods. In addition to its efficiency, the versatility of the method is also exposed across several tasks such as text-to-image, inpainting, face-swapping, super-resolution and using different backbones such as UNet-based denoisers (SD1.5, SDXL) or DiT (Pixart-$\alpha$), as well as adapters. In all cases, the method allowed to reduce drastically the number of sampling steps while maintaining very high-quality image generation. The official implementation is available at https://github.com/gojasper/flash-diffusion.
- Abstract(参考訳): 本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。
このメソッドは、COCO2014とCOCO2017データセット上でイメージ生成を行ういくつかのステップにおいて、FIDとCLIP-Scoreの面で最先端のパフォーマンスに達する。
その効率性に加えて、この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$\alpha$)、アダプタなどの異なるバックボーンの使用など、いくつかのタスクにまたがる。
いずれの場合も、非常に高品質な画像生成を維持しながら、サンプリングステップの数を劇的に削減することができる。
公式実装はhttps://github.com/gojasper/flash-diffusion.comで公開されている。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。
提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。
提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文 参考訳(メタデータ) (2024-07-22T09:44:35Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。
ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文 参考訳(メタデータ) (2023-05-30T14:28:43Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。