論文の概要: InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2309.06380v2
- Date: Sat, 23 Mar 2024 14:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 03:17:47.876361
- Title: InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation
- Title(参考訳): InstaFlow: 高品質な拡散ベースのテキスト-画像生成のための一歩
- Authors: Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu,
- Abstract要約: 安定拡散(SD)を超高速1ステップモデルに変換するための新しいテキスト条件付きパイプラインを提案する。
我々は、SDレベルの画質を持つ最初の1ステップ拡散ベースのテキスト・ツー・イメージ・ジェネレータを作成し、MS COCO 2017-5kで23.3ドルのFIDを達成した。
- 参考スコア(独自算出の注目度): 33.70116170511312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its \emph{reflow} procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of $23.3$ on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin ($37.2$ $\rightarrow$ $23.3$ in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to $22.4$. We call our one-step models \emph{InstaFlow}. On MS COCO 2014-30k, InstaFlow yields an FID of $13.1$ in just $0.09$ second, the best in $\leq 0.1$ second regime, outperforming the recent StyleGAN-T ($13.9$ in $0.1$ second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Codes and pre-trained models are available at \url{github.com/gnobitab/InstaFlow}.
- Abstract(参考訳): 拡散モデルは、その例外的な品質と創造性によって、テキストから画像生成に革命をもたらした。
しかし、その多段階サンプリングプロセスは遅く、良好な結果を得るためには数十の推論ステップが必要になることが知られている。
従来の蒸留によるサンプリング速度の向上と計算コスト削減の試みは,機能的なワンステップモデルの実現には成功しなかった。
本稿では,これまで小さなデータセットにのみ適用されてきたRectified Flowという手法について検討する。
Rectified Flowのコアは、確率フローの軌跡を直線化し、ノイズと画像の結合を洗練し、学生モデルによる蒸留プロセスを容易にする、 \emph{reflow} プロセスにある。
安定拡散(SD)を超高速な1ステップモデルに変換するための,新しいテキスト条件付きパイプラインを提案する。
新しいパイプラインを活用して、私たちの知る限り、SDレベルの画質を持つ最初のワンステップ拡散ベースのテキスト・ツー・イメージジェネレータを作り、以前の最先端技術であるプログレッシブ蒸留を抜いて23.3ドルのFID(Frechet Inception Distance)をMS COCO 2017-5kで達成した(Frechet Inception Distance)。
1.7Bパラメータを持つ拡張ネットワークを利用することで、FIDをさらに22.4$に改善する。
当社のワンステップモデルをemph{InstaFlow}と呼びます。
MS COCO 2014-30kでは、InstaFlowのFIDは$13.1$ in just $0.09$ second, the best in $\leq 0.1$ second regime、最近のStyleGAN-T (13.9$ in $0.1$ second)を上回っている。
特に、InstaFlowのトレーニングには199 A100 GPU日しかかからない。
コードと事前訓練されたモデルは \url{github.com/gnobitab/InstaFlow} で入手できる。
関連論文リスト
- Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - ZeroFlow: Scalable Scene Flow via Distillation [66.70820145266029]
シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。
State-of-the-artメソッドは、強い事前とテスト時の最適化技術を使用するが、フルサイズの点雲を処理するには数秒の順序を必要とする。
本研究では,ラベルなし最適化手法を用いて擬似ラベルを生成し,フィードフォワードモデルを監督する簡易でスケーラブルな蒸留フレームワークであるScene Flow via Distillationを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:56:59Z) - FInC Flow: Fast and Invertible $k \times k$ Convolutions for Normalizing
Flows [2.156373334386171]
可逆畳み込みは、表現的正規化フローベース生成モデルを構築する上で不可欠な要素である。
我々は、$k倍の畳み込み層とDeep Normalizing Flowアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-01-23T04:31:03Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。