論文の概要: Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion
- arxiv url: http://arxiv.org/abs/2411.15113v1
- Date: Fri, 22 Nov 2024 18:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:47.655104
- Title: Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion
- Title(参考訳): テキスト・ツー・イメージモデルの効率的なプルーニング:プルーニング安定拡散からの洞察
- Authors: Samarth N Ramesh, Zhixue Zhao,
- Abstract要約: 本稿では,安定拡散2号の訓練後刈り込みに関する先駆的な研究について述べる。
テキスト・ツー・イメージ領域におけるモデル圧縮に対する重要なニーズに対処する。
本稿では,テキストエンコーダを47.5%,拡散生成器を35%にプルークする最適プルーニング構成を提案する。
- 参考スコア(独自算出の注目度): 3.399289369740637
- License:
- Abstract: As text-to-image models grow increasingly powerful and complex, their burgeoning size presents a significant obstacle to widespread adoption, especially on resource-constrained devices. This paper presents a pioneering study on post-training pruning of Stable Diffusion 2, addressing the critical need for model compression in text-to-image domain. Our study tackles the pruning techniques for the previously unexplored multi-modal generation models, and particularly examines the pruning impact on the textual component and the image generation component separately. We conduct a comprehensive comparison on pruning the model or the single component of the model in various sparsities. Our results yield previously undocumented findings. For example, contrary to established trends in language model pruning, we discover that simple magnitude pruning outperforms more advanced techniques in text-to-image context. Furthermore, our results show that Stable Diffusion 2 can be pruned to 38.5% sparsity with minimal quality loss, achieving a significant reduction in model size. We propose an optimal pruning configuration that prunes the text encoder to 47.5% and the diffusion generator to 35%. This configuration maintains image generation quality while substantially reducing computational requirements. In addition, our work uncovers intriguing questions about information encoding in text-to-image models: we observe that pruning beyond certain thresholds leads to sudden performance drops (unreadable images), suggesting that specific weights encode critical semantics information. This finding opens new avenues for future research in model compression, interoperability, and bias identification in text-to-image models. By providing crucial insights into the pruning behavior of text-to-image models, our study lays the groundwork for developing more efficient and accessible AI-driven image generation systems
- Abstract(参考訳): テキストと画像のモデルがますます強力で複雑になるにつれて、その肥大化は、特にリソース制約のあるデバイスにおいて、広く普及する上で大きな障害となる。
本稿では,テキスト・ツー・イメージ領域におけるモデル圧縮の重要なニーズに対処するため,安定拡散2の訓練後プルーニングに関する先駆的な研究を提案する。
本研究は、未探索のマルチモーダル生成モデルのプルーニング技術に取り組み、特にテキスト成分と画像生成成分に対するプルーニングの影響を別々に検討する。
各種の空間におけるモデルのプルーニングやモデルの単一成分の包括的比較を行う。
文献に記載されていない結果が得られた。
例えば、言語モデルプルーニングの確立したトレンドとは対照的に、単純等級プルーニングはテキスト・ツー・イメージの文脈において、より高度な技術よりも優れていることが分かる。
さらに, 安定拡散2は, 最小品質の損失を伴って38.5%の範囲に切断でき, モデルサイズを大幅に削減できることを示した。
本稿では,テキストエンコーダを47.5%,拡散生成器を35%にプルークする最適プルーニング構成を提案する。
この構成は、計算要求を大幅に削減しつつ、画像生成の品質を維持する。
さらに,テキスト・ツー・イメージ・モデルにおける情報符号化に関する興味深い疑問が明らかになった。特定のしきい値を超えたプルーニングが突然のパフォーマンス低下(読めない画像)を引き起こすことが観察され,特定の重みが重要なセマンティクス情報をエンコードしていることが示唆された。
この発見は、テキスト・ツー・イメージモデルにおけるモデル圧縮、相互運用性、バイアス識別に関する将来の研究の新たな道を開く。
テキスト・ツー・イメージ・モデルのプルーニング行動に関する重要な洞察を提供することで、より効率的でアクセスしやすいAI駆動画像生成システムを構築するための基礎となる研究を行った。
関連論文リスト
- TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Scaling Rectified Flow Transformers for High-Resolution Image Synthesis [22.11487736315616]
整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。
我々は,既存のノイズサンプリング手法を改良し,それらを知覚的に関係のあるスケールに偏りを持たせることにより,整流モデルの訓練を行う。
本稿では,2つのモードの重みを分離したテキスト・画像生成のためのトランスフォーマー・ベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-05T18:45:39Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Trade-offs in Fine-tuned Diffusion Models Between Accuracy and
Interpretability [5.865936619867771]
生成拡散モデルにおける従来の計測値とモデル解釈可能性による画像の忠実度との間に連続的なトレードオフが生じる。
我々は、真に解釈可能な生成モデルを開発するための設計原則のセットを提示する。
論文 参考訳(メタデータ) (2023-03-31T09:11:26Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。