論文の概要: Scaling Down Text Encoders of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.19897v1
- Date: Tue, 25 Mar 2025 17:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:01.382502
- Title: Scaling Down Text Encoders of Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのテキストエンコーダのスケールダウン
- Authors: Lifu Wang, Daqing Liu, Xinchen Liu, Xiaodong He,
- Abstract要約: 拡散モデルにおけるテキストエンコーダは急速に進化し、CLIPからT5-XXLへ移行した。
我々は、一連のT5エンコーダモデルを訓練するために、視覚に基づく知識蒸留を採用している。
以上の結果から, 蒸留T5ベースモデルがT5-XXLと同等の画質の画像を生成できることが示されている。
- 参考スコア(独自算出の注目度): 24.751226627178475
- License:
- Abstract: Text encoders in diffusion models have rapidly evolved, transitioning from CLIP to T5-XXL. Although this evolution has significantly enhanced the models' ability to understand complex prompts and generate text, it also leads to a substantial increase in the number of parameters. Despite T5 series encoders being trained on the C4 natural language corpus, which includes a significant amount of non-visual data, diffusion models with T5 encoder do not respond to those non-visual prompts, indicating redundancy in representational power. Therefore, it raises an important question: "Do we really need such a large text encoder?" In pursuit of an answer, we employ vision-based knowledge distillation to train a series of T5 encoder models. To fully inherit its capabilities, we constructed our dataset based on three criteria: image quality, semantic understanding, and text-rendering. Our results demonstrate the scaling down pattern that the distilled T5-base model can generate images of comparable quality to those produced by T5-XXL, while being 50 times smaller in size. This reduction in model size significantly lowers the GPU requirements for running state-of-the-art models such as FLUX and SD3, making high-quality text-to-image generation more accessible.
- Abstract(参考訳): 拡散モデルにおけるテキストエンコーダは急速に進化し、CLIPからT5-XXLへ移行した。
この進化は複雑なプロンプトを理解し、テキストを生成するモデルの能力を大幅に向上させたが、パラメータの数も大幅に増加した。
膨大な量の非視覚データを含むC4自然言語コーパスで訓練されているにもかかわらず、T5エンコーダを用いた拡散モデルはこれらの非視覚的プロンプトに反応せず、表現力の冗長性を示している。
ですから,重要な疑問が浮かび上がっています – “これほど大きなテキストエンコーダが必要なのでしょうか?
そこで我々は,一連のT5エンコーダモデルを学習するために,視覚に基づく知識蒸留を用いる。
機能を完全に継承するために,画像品質,意味理解,テキストレンダリングという3つの基準に基づいてデータセットを構築した。
以上の結果から, 蒸留T5ベースモデルではT5-XXLと同等の画質の画像を生成できるが, サイズは50倍であることがわかった。
このモデルサイズ削減により、FLUXやSD3といった最先端モデルのGPU要求が大幅に削減され、高品質のテキスト・画像生成がよりアクセスしやすくなった。
関連論文リスト
- Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。
近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。
この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文 参考訳(メタデータ) (2024-12-04T07:26:44Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - The Five-Dollar Model: Generating Game Maps and Sprites from Sentence
Embeddings [3.620115940532283]
5ドルモデルは、符号化されたテキストプロンプトから低次元画像を生成する軽量なテキスト画像生成アーキテクチャである。
このモデルを,ピクセルアートゲームマップ,ゲームスプライト画像,ダウンスケール絵文字画像の3つの小さなデータセットに適用する。
CLIP VIT-B/32モデルにより生成されたテキスト画像ペア間のコサイン類似度スコアを用いて,本モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-08-08T05:16:51Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - EncT5: Fine-tuning T5 Encoder for Non-autoregressive Tasks [9.141586109808895]
我々は、T5のような微調整済みのエンコーダデコーダモデルについて検討する。
実験の結果, T5 のパラメータの半分未満の textbfEncT5 は GLUE ベンチマークの T5 モデルと同様の性能を示した。
論文 参考訳(メタデータ) (2021-10-16T00:50:08Z) - Attention Is Indeed All You Need: Semantically Attention-Guided Decoding
for Data-to-Text NLG [0.913755431537592]
本稿では,エンコーダ・デコーダモデルのクロスアテンションから解釈可能な情報を抽出する新しい復号法を提案する。
生成した出力のセマンティックエラーを劇的に低減する3つのデータセットを示す。
論文 参考訳(メタデータ) (2021-09-15T01:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。