論文の概要: Long and Short Guidance in Score identity Distillation for One-Step Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2406.01561v3
- Date: Thu, 8 Aug 2024 16:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:07:02.251145
- Title: Long and Short Guidance in Score identity Distillation for One-Step Text-to-Image Generation
- Title(参考訳): ワンステップテキスト・ツー・イメージ生成のためのスコアアイデンティティ蒸留における長短誘導
- Authors: Mingyuan Zhou, Zhendong Wang, Huangjie Zheng, Hai Huang,
- Abstract要約: 拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を示した。
本稿では,Score ID Distillation (SiD) の長短分類器フリーガイダンス (LSG) を開発し,事前学習した安定拡散モデルを効率的に蒸留することにより,Score ID Distillation (SiD) を強化する。
LSGを備えたSiDは、FIDとCLIPのスコアを急速に改善し、競争力のあるCLIPスコアを維持しながら最先端のFIDのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 62.30570286073223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based text-to-image generation models trained on extensive text-image pairs have shown the capacity to generate photorealistic images consistent with textual descriptions. However, a significant limitation of these models is their slow sample generation, which requires iterative refinement through the same network. In this paper, we enhance Score identity Distillation (SiD) by developing long and short classifier-free guidance (LSG) to efficiently distill pretrained Stable Diffusion models without using real training data. SiD aims to optimize a model-based explicit score matching loss, utilizing a score-identity-based approximation alongside the proposed LSG for practical computation. By training exclusively with fake images synthesized with its one-step generator, SiD equipped with LSG rapidly improves FID and CLIP scores, achieving state-of-the-art FID performance while maintaining a competitive CLIP score. Specifically, its data-free distillation of Stable Diffusion 1.5 achieves a record low FID of 8.15 on the COCO-2014 validation set, with a CLIP score of 0.304 at an LSG scale of 1.5, and an FID of 9.56 with a CLIP score of 0.313 at an LSG scale of 2. Our code and distilled one-step text-to-image generators are available at https://github.com/mingyuanzhou/SiD-LSG.
- Abstract(参考訳): 広範テキストイメージペアで訓練された拡散ベースのテキスト画像生成モデルは、テキスト記述と整合したフォトリアリスティック画像を生成する能力を示している。
しかし、これらのモデルの顕著な制限は、その遅いサンプル生成であり、同じネットワークを通して反復的な改善を必要とする。
本稿では,Score ID Distillation (SiD) を強化し,Long and Short Classifier-free Guide (LSG) を開発した。
SiD はモデルに基づく明示的なスコアマッチング損失を最適化することを目的としており、実際の計算のために提案したLSG と並行してスコア同一性に基づく近似を用いている。
一段生成器で合成された偽画像のみをトレーニングすることにより、LSGを備えたSiDは、FIDとCLIPのスコアを急速に改善し、競争力のあるCLIPスコアを維持しながら最先端のFIDのパフォーマンスを達成する。
具体的には、そのデータフリー蒸留法である安定拡散1.5は、COCO-2014検証セットで8.15の低いFID、LSGスケールで0.304のCLIPスコア、LSGスケールで0.313のCLIPスコアで9.56のFIDを達成している。
我々のコードと1段階のテキスト・ツー・イメージ・ジェネレータはhttps://github.com/mingyuanzhou/SiD-LSGで利用可能です。
関連論文リスト
- Self-Corrected Flow Distillation for Consistent One-Step and Few-Step Text-to-Image Generation [3.8959351616076745]
フローマッチングは、生成モデルをトレーニングするための有望なフレームワークとして登場した。
本稿では, 整合性モデルと対向学習を統合した自己補正型流動蒸留法を提案する。
この研究は、数ステップと1ステップのサンプリングで一貫した生成品質を達成するための先駆者である。
論文 参考訳(メタデータ) (2024-12-22T07:48:49Z) - Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization [34.79567392368196]
本稿では, 既存の拡散式蒸留法に対する新しい枠組みを提案し, 生成ではなく拡散モデルを用いて選択する。
提案手法は,入力画像とテキストプロンプトに基づいて拡散モデルから発生するノイズを予測し,各ペアの損失を算出する。
この合理化フレームワークは単一段階の蒸留プロセスを実現するとともに,我々の手法が様々なメトリクスにわたって最先端の手法より優れていることを示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-12-13T08:34:46Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation [61.03530321578825]
Score Identity Distillation (SiD) は、事前学習した拡散モデルの生成能力を1ステップ生成器に蒸留する革新的なデータフリー手法である。
SiDは、蒸留中のFr'echet開始距離(FID)を指数的に高速に減少させるだけでなく、元の教師拡散モデルのFID性能に近づいたり、超えたりする。
論文 参考訳(メタデータ) (2024-04-05T12:30:19Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Always Be Dreaming: A New Approach for Data-Free Class-Incremental
Learning [73.24988226158497]
データフリークラスインクリメンタルラーニング(DFCIL)における高インパクト問題について考察する。
そこで本研究では, 改良型クロスエントロピートレーニングと重要重み付き特徴蒸留に寄与するDFCILの新たなインクリメンタル蒸留戦略を提案する。
本手法は,共通クラスインクリメンタルベンチマークにおけるSOTA DFCIL法と比較して,最終タスク精度(絶対差)が25.1%向上する。
論文 参考訳(メタデータ) (2021-06-17T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。