論文の概要: InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2309.06380v2
- Date: Sat, 23 Mar 2024 14:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 03:17:47.876361
- Title: InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation
- Title(参考訳): InstaFlow: 高品質な拡散ベースのテキスト-画像生成のための一歩
- Authors: Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu,
- Abstract要約: 安定拡散(SD)を超高速1ステップモデルに変換するための新しいテキスト条件付きパイプラインを提案する。
我々は、SDレベルの画質を持つ最初の1ステップ拡散ベースのテキスト・ツー・イメージ・ジェネレータを作成し、MS COCO 2017-5kで23.3ドルのFIDを達成した。
- 参考スコア(独自算出の注目度): 33.70116170511312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its \emph{reflow} procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of $23.3$ on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin ($37.2$ $\rightarrow$ $23.3$ in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to $22.4$. We call our one-step models \emph{InstaFlow}. On MS COCO 2014-30k, InstaFlow yields an FID of $13.1$ in just $0.09$ second, the best in $\leq 0.1$ second regime, outperforming the recent StyleGAN-T ($13.9$ in $0.1$ second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Codes and pre-trained models are available at \url{github.com/gnobitab/InstaFlow}.
- Abstract(参考訳): 拡散モデルは、その例外的な品質と創造性によって、テキストから画像生成に革命をもたらした。
しかし、その多段階サンプリングプロセスは遅く、良好な結果を得るためには数十の推論ステップが必要になることが知られている。
従来の蒸留によるサンプリング速度の向上と計算コスト削減の試みは,機能的なワンステップモデルの実現には成功しなかった。
本稿では,これまで小さなデータセットにのみ適用されてきたRectified Flowという手法について検討する。
Rectified Flowのコアは、確率フローの軌跡を直線化し、ノイズと画像の結合を洗練し、学生モデルによる蒸留プロセスを容易にする、 \emph{reflow} プロセスにある。
安定拡散(SD)を超高速な1ステップモデルに変換するための,新しいテキスト条件付きパイプラインを提案する。
新しいパイプラインを活用して、私たちの知る限り、SDレベルの画質を持つ最初のワンステップ拡散ベースのテキスト・ツー・イメージジェネレータを作り、以前の最先端技術であるプログレッシブ蒸留を抜いて23.3ドルのFID(Frechet Inception Distance)をMS COCO 2017-5kで達成した(Frechet Inception Distance)。
1.7Bパラメータを持つ拡張ネットワークを利用することで、FIDをさらに22.4$に改善する。
当社のワンステップモデルをemph{InstaFlow}と呼びます。
MS COCO 2014-30kでは、InstaFlowのFIDは$13.1$ in just $0.09$ second, the best in $\leq 0.1$ second regime、最近のStyleGAN-T (13.9$ in $0.1$ second)を上回っている。
特に、InstaFlowのトレーニングには199 A100 GPU日しかかからない。
コードと事前訓練されたモデルは \url{github.com/gnobitab/InstaFlow} で入手できる。
関連論文リスト
- Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文 参考訳(メタデータ) (2024-09-26T17:59:51Z) - Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - ZeroFlow: Scalable Scene Flow via Distillation [66.70820145266029]
シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。
State-of-the-artメソッドは、強い事前とテスト時の最適化技術を使用するが、フルサイズの点雲を処理するには数秒の順序を必要とする。
本研究では,ラベルなし最適化手法を用いて擬似ラベルを生成し,フィードフォワードモデルを監督する簡易でスケーラブルな蒸留フレームワークであるScene Flow via Distillationを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。