論文の概要: DICE: Distilling Classifier-Free Guidance into Text Embeddings
- arxiv url: http://arxiv.org/abs/2502.03726v1
- Date: Thu, 06 Feb 2025 02:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:46.490345
- Title: DICE: Distilling Classifier-Free Guidance into Text Embeddings
- Title(参考訳): DICE: クラシファイアフリーガイダンスをテキスト埋め込みに拡張
- Authors: Zhenyu Zhou, Defang Chen, Can Wang, Chun Chen, Siwei Lyu,
- Abstract要約: テキスト間拡散モデルは高品質な画像を生成することができるが、これらの画像は与えられたテキストプロンプトと密接に一致しないことが多い。
生成過程におけるCFGへの依存を除去する新しいアプローチであるテキスト埋め込み(DICE)を強化することで、CFGを蒸留する。
DICEは、CFGベースの方向を再現するためにテキスト埋め込みを精製することにより、CFGベースのテキスト-画像拡散モデルをCFGフリーバージョンに蒸留する。
- 参考スコア(独自算出の注目度): 39.79747569096888
- License:
- Abstract: Text-to-image diffusion models are capable of generating high-quality images, but these images often fail to align closely with the given text prompts. Classifier-free guidance (CFG) is a popular and effective technique for improving text-image alignment in the generative process. However, using CFG introduces significant computational overhead and deviates from the established theoretical foundations of diffusion models. In this paper, we present DIstilling CFG by enhancing text Embeddings (DICE), a novel approach that removes the reliance on CFG in the generative process while maintaining the benefits it provides. DICE distills a CFG-based text-to-image diffusion model into a CFG-free version by refining text embeddings to replicate CFG-based directions. In this way, we avoid the computational and theoretical drawbacks of CFG, enabling high-quality, well-aligned image generation at a fast sampling speed. Extensive experiments on multiple Stable Diffusion v1.5 variants, SDXL and PixArt-$\alpha$ demonstrate the effectiveness of our method. Furthermore, DICE supports negative prompts for image editing to improve image quality further. Code will be available soon.
- Abstract(参考訳): テキスト間拡散モデルは高品質な画像を生成することができるが、これらの画像は与えられたテキストプロンプトと密接に一致しないことが多い。
分類器フリーガイダンス(CFG)は、生成過程におけるテキスト画像のアライメントを改善するための一般的かつ効果的な手法である。
しかし、CFGを用いることで計算オーバーヘッドが大幅に増加し、拡散モデルの確立された理論的基礎から逸脱する。
本稿では, CFG生成過程におけるCFG依存を解消し, その利点を維持しつつ, テキスト埋め込み(DICE)を強化することによって, CFGを蒸留する手法を提案する。
DICEは、CFGベースの方向を再現するためにテキスト埋め込みを精製することにより、CFGベースのテキスト-画像拡散モデルをCFGフリーバージョンに蒸留する。
このようにして、CFGの計算的および理論的欠点を回避し、高速サンプリング速度で高品質で整列した画像を生成することができる。
SDXL と PixArt-$\alpha$ の複数の安定拡散 v1.5 変種に対する実験により,本手法の有効性が示された。
さらに、DICEは画像編集のための負のプロンプトをサポートし、画質をさらに向上する。
コードはまもなく利用可能になる。
関連論文リスト
- Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences [0.0]
Diff-Instruct++ (DI++) は,1ステップのテキスト・ツー・イメージ・ジェネレータに対して,高速に収束し,画像データのない人間の嗜好アライメント手法である。
実験セクションでは,Diffusion 1.5 と PixelArt-$alpha$ を基準拡散プロセスとして使用した DI++ を用いて,UNet ベースと DiT ベースのワンステップジェネレータを連携させる。
結果のDiTベースのワンステップテキスト・ツー・イメージモデルは、検証プロンプトデータセット上で、6.19の強い美的スコアと1.24のイメージ・リワードを達成する
論文 参考訳(メタデータ) (2024-10-24T16:17:18Z) - CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models [52.29804282879437]
CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
論文 参考訳(メタデータ) (2024-06-12T10:40:10Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size
HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。
そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。
ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文 参考訳(メタデータ) (2023-08-31T09:27:56Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z) - Controlled and Conditional Text to Image Generation with Diffusion Prior [1.8690858882873838]
DALLE-2の2ステッププロセスは、テキストからCLIPイメージの埋め込みを生成するDiffusion Priorと、CLIPイメージの埋め込みから画像を生成するDiffusion Decoderで構成される。
提案手法は,カラー条件付き生成のための領域固有生成と既存のベースラインの迅速なエンジニアリングよりも,定量的かつ質的に優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。