論文の概要: Dense2MoE: Restructuring Diffusion Transformer to MoE for Efficient Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2510.09094v1
- Date: Fri, 10 Oct 2025 07:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.390953
- Title: Dense2MoE: Restructuring Diffusion Transformer to MoE for Efficient Text-to-Image Generation
- Title(参考訳): Dense2MoE: 効率的なテキスト・画像生成のための拡散変換器をMoEに再構成する
- Authors: Youwei Zheng, Yuxi Ren, Xin Xia, Xuefeng Xiao, Xiaohua Xie,
- Abstract要約: 本研究では,高密度拡散変換器(DiT)をMixture of Experts(MoE)に変換する。
具体的には、DiT BlocksのFeed-Forward Networks(FFN)をMoE層に置き換え、FFNの活性化パラメータ数を62.5%削減する。
全体として、Dense2MoEは効率的なテキスト・画像生成のための新しいパラダイムを確立している。
- 参考スコア(独自算出の注目度): 41.16959587963631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformer (DiT) has demonstrated remarkable performance in text-to-image generation; however, its large parameter size results in substantial inference overhead. Existing parameter compression methods primarily focus on pruning, but aggressive pruning often leads to severe performance degradation due to reduced model capacity. To address this limitation, we pioneer the transformation of a dense DiT into a Mixture of Experts (MoE) for structured sparsification, reducing the number of activated parameters while preserving model capacity. Specifically, we replace the Feed-Forward Networks (FFNs) in DiT Blocks with MoE layers, reducing the number of activated parameters in the FFNs by 62.5\%. Furthermore, we propose the Mixture of Blocks (MoB) to selectively activate DiT blocks, thereby further enhancing sparsity. To ensure an effective dense-to-MoE conversion, we design a multi-step distillation pipeline, incorporating Taylor metric-based expert initialization, knowledge distillation with load balancing, and group feature loss for MoB optimization. We transform large diffusion transformers (e.g., FLUX.1 [dev]) into an MoE structure, reducing activated parameters by 60\% while maintaining original performance and surpassing pruning-based approaches in extensive experiments. Overall, Dense2MoE establishes a new paradigm for efficient text-to-image generation.
- Abstract(参考訳): Diffusion Transformer (DiT) はテキスト・画像生成において顕著な性能を示したが、その大きなパラメータサイズはかなりの推測オーバーヘッドをもたらす。
既存のパラメータ圧縮手法は主にプルーニングに重点を置いているが、アグレッシブプルーニングはモデルキャパシティの低下による性能低下を招くことが多い。
この制限に対処するため、モデルキャパシティを保ちながら活性パラメータの数を減らし、高密度なDiTを構造化されたスパーシフィケーションのためのMixture of Experts (MoE)に変換した。
具体的には、DiT BlocksのFeed-Forward Networks(FFN)をMoE層に置き換え、FFNの活性化パラメータ数を62.5\%削減する。
さらに,DiTブロックを選択的に活性化するMixture of Blocks (MoB)を提案する。
多段階蒸留パイプラインを設計し,テイラー計量に基づく専門的初期化,負荷分散による知識蒸留,MoB最適化のためのグループ特徴損失を取り入れた。
我々は大規模な拡散変換器(FLUX.1[dev])をMoE構造に変換し、元の性能を維持しながら活性化パラメータを60\%削減し、広範囲な実験においてプルーニングに基づくアプローチを超越する。
全体として、Dense2MoEは効率的なテキスト・画像生成のための新しいパラダイムを確立している。
関連論文リスト
- ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers [30.88764351013966]
GPT(Generative Pre-trained Transformer)は、様々な領域で顕著な性能を示す。
近年の研究では、トランスブロック内の冗長性を観察し、重要でないブロックの構造化プルーニングによる圧縮法を開発した。
FuseGPTは,プルーンドトランスフォーマーブロックをリサイクルし,モデルの性能を回復する新しい手法である。
論文 参考訳(メタデータ) (2024-11-21T09:49:28Z) - An Analysis on Quantizing Diffusion Transformers [19.520194468481655]
ポストトレーニング量子化(PTQ)は、より小さなストレージサイズと推論時のメモリ効率の高い計算に対する即時対策を提供する。
低ビット量子化のために,アクティベーションの単一ステップサンプリング校正と重みのグループワイド量子化を提案する。
論文 参考訳(メタデータ) (2024-06-16T23:18:35Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。