論文の概要: SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational
Score Distillation
- arxiv url: http://arxiv.org/abs/2312.05239v1
- Date: Fri, 8 Dec 2023 18:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 14:14:17.500480
- Title: SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational
Score Distillation
- Title(参考訳): SwiftBrush: 変量スコア蒸留を用いたワンステップテキスト・画像拡散モデル
- Authors: Thuan Hoang Nguyen, Anh Tran
- Abstract要約: テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
- 参考スコア(独自算出の注目度): 1.877515610186164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite their ability to generate high-resolution and diverse images from
text prompts, text-to-image diffusion models often suffer from slow iterative
sampling processes. Model distillation is one of the most effective directions
to accelerate these models. However, previous distillation methods fail to
retain the generation quality while requiring a significant amount of images
for training, either from real data or synthetically generated by the teacher
model. In response to this limitation, we present a novel image-free
distillation scheme named $\textbf{SwiftBrush}$. Drawing inspiration from
text-to-3D synthesis, in which a 3D neural radiance field that aligns with the
input prompt can be obtained from a 2D text-to-image diffusion prior via a
specialized loss without the use of any 3D data ground-truth, our approach
re-purposes that same loss for distilling a pretrained multi-step text-to-image
model to a student network that can generate high-fidelity images with just a
single inference step. In spite of its simplicity, our model stands as one of
the first one-step text-to-image generators that can produce images of
comparable quality to Stable Diffusion without reliance on any training image
data. Remarkably, SwiftBrush achieves an FID score of $\textbf{16.67}$ and a
CLIP score of $\textbf{0.29}$ on the COCO-30K benchmark, achieving competitive
results or even substantially surpassing existing state-of-the-art distillation
techniques.
- Abstract(参考訳): テキストプロンプトから高解像度で多様な画像を生成できるにもかかわらず、テキスト間拡散モデルは、しばしば遅い反復サンプリングプロセスに悩まされる。
モデル蒸留はこれらのモデルを加速する最も効果的な方法の1つである。
しかし, 従来の蒸留法では, 実データから, あるいは教師モデルで合成的に生成した画像にかなりの量の画像を必要とするため, 生成品質を保たない。
この制限に対応するために、$\textbf{SwiftBrush}$という新しい画像のない蒸留スキームを示す。
入力プロンプトと整合する3dニューラルラジアンスフィールドを、特別な損失を伴わずに2dのテキストから画像への拡散から得ることができるテキストから3d合成へのインスピレーションを引き出す手法は、事前訓練された複数ステップのテキストから画像へのモデルを1つの推論ステップで高精細な画像を生成することができる学生ネットワークに蒸留するために同じ損失を再利用する。
その単純さにもかかわらず、我々のモデルは、トレーニング画像データに頼らずに安定拡散に匹敵する画質の画像を生成できる最初のワンステップのテキスト・ツー・イメージ・ジェネレータの1つである。
注目すべきは、SwiftBrushがFIDスコアの$\textbf{16.67}$とCLIPスコアの$\textbf{0.29}$をCOCO-30Kベンチマークで達成し、競争的な結果を達成するか、あるいは既存の最先端蒸留技術よりもはるかに上回っていることだ。
関連論文リスト
- Diffusion Time-step Curriculum for One Image to 3D Generation [91.07638345953016]
テキストバッフル画像から3Dオブジェクトを再構成する際の見知らぬ視点の欠如を克服するために,スコア蒸留サンプリング(SDS)が広く採用されている。
最適化中の拡散時間ステップの無差別な処理方法として,クルックスが見過ごされていることが判明した。
本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline (DTC123)を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:03:18Z) - Iterative Prompt Relabeling for diffusion model with RLDF [32.60206876828442]
拡散モデルは、画像生成、時系列予測、強化学習など、多くの領域で顕著な性能を示している。
本稿では,反復的な画像サンプリングとプロンプト・レバーベリングにより,画像とテキストを協調する新しいアルゴリズムIP-RLDFを提案する。
SDv2, GLIGEN, SDXLの3種類のモデルに対して徹底的な実験を行い, 命令に従って画像を生成する能力を検証した。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。