論文の概要: ALTER: All-in-One Layer Pruning and Temporal Expert Routing for Efficient Diffusion Generation
- arxiv url: http://arxiv.org/abs/2505.21817v1
- Date: Tue, 27 May 2025 22:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.324782
- Title: ALTER: All-in-One Layer Pruning and Temporal Expert Routing for Efficient Diffusion Generation
- Title(参考訳): ALTER:効率的な拡散生成のためのオールインワン層プルーニングと時間的エキスパートルーティング
- Authors: Xiaomeng Yang, Lei Lu, Qihui Fan, Changdi Yang, Juyi Lin, Yanzhi Wang, Xuan Zhang, Shangqian Gao,
- Abstract要約: ALTER: All-in-One Layer Pruning and Temporal Expert Routingを紹介する。
拡散モデルを効率的な時間的専門家の混合物に変換する統一されたフレームワーク。
トレーニング可能なハイパーネットワークを利用することで、レイヤープルーニング、エキスパートルーティング、モデル微調整を統一するシングルステージ最適化。
- 参考スコア(独自算出の注目度): 40.68265817413368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated exceptional capabilities in generating high-fidelity images. However, their iterative denoising process results in significant computational overhead during inference, limiting their practical deployment in resource-constrained environments. Existing acceleration methods often adopt uniform strategies that fail to capture the temporal variations during diffusion generation, while the commonly adopted sequential pruning-then-fine-tuning strategy suffers from sub-optimality due to the misalignment between pruning decisions made on pretrained weights and the model's final parameters. To address these limitations, we introduce ALTER: All-in-One Layer Pruning and Temporal Expert Routing, a unified framework that transforms diffusion models into a mixture of efficient temporal experts. ALTER achieves a single-stage optimization that unifies layer pruning, expert routing, and model fine-tuning by employing a trainable hypernetwork, which dynamically generates layer pruning decisions and manages timestep routing to specialized, pruned expert sub-networks throughout the ongoing fine-tuning of the UNet. This unified co-optimization strategy enables significant efficiency gains while preserving high generative quality. Specifically, ALTER achieves same-level visual fidelity to the original 50-step Stable Diffusion v2.1 model while utilizing only 25.9% of its total MACs with just 20 inference steps and delivering a 3.64x speedup through 35% sparsity.
- Abstract(参考訳): 拡散モデルは高忠実度画像の生成において例外的な能力を示した。
しかし、反復的なデノゲーションプロセスは、推論中にかなりの計算オーバーヘッドをもたらし、リソース制約のある環境への実際の展開を制限する。
既存の加速法では、拡散生成中に時間的変動を捉えない一様戦略を採用することが多いが、一般的に採用されているシーケンシャルプルーニング・ファインニング戦略は、事前訓練された重みによるプルーニング決定とモデルの最終パラメータとのミスアライメントにより、サブ最適性に悩まされる。
これらの制限に対処するために、ALTER: All-in-One Layer PruningとTemporal Expert Routingを紹介します。
ALTERは、トレーニング可能なハイパーネットワークを使用して、レイヤープルーニング、エキスパートルーティング、モデルファインチューニングを統一するシングルステージ最適化を実現し、UNetの継続的な微調整を通じて、レイヤープルーニング決定を動的に生成し、特殊なプルーニングされたエキスパートサブネットワークへのタイムステップルーティングを管理する。
この統合最適化戦略は、高い生成品質を維持しながら、大幅な効率向上を可能にする。
具体的には、ALTERは最初の50ステップの安定拡散v2.1モデルと同じレベルの視覚的忠実さを達成し、合計MACの25.9%しか利用せず、20ステップしか推論せず、3.64倍のスピードアップを35%の間隔で実現している。
関連論文リスト
- DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Diffusion Models as Optimizers for Efficient Planning in Offline RL [47.0835433289033]
拡散モデルはオフラインの強化学習タスクにおいて強い競争力を示している。
本稿では,より高速な自己回帰モデルを提案する。
これにより、能力を犠牲にすることなく、より効率的な計画を達成することができます。
論文 参考訳(メタデータ) (2024-07-23T03:00:01Z) - Spatial Annealing for Efficient Few-shot Neural Rendering [73.49548565633123]
我々はtextbfSpatial textbf Annealing regularized textbfNeRF (textbfSANeRF) という,正確で効率的な数発のニューラルレンダリング手法を導入する。
単に1行のコードを追加することで、SANeRFは、現在の数ショットのニューラルレンダリング方法と比較して、より優れたレンダリング品質とはるかに高速な再構築速度を提供する。
論文 参考訳(メタデータ) (2024-06-12T02:48:52Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - TMPQ-DM: Joint Timestep Reduction and Quantization Precision Selection for Efficient Diffusion Models [40.5153344875351]
我々はTMPQ-DMを導入し、タイムステップの削減と量子化を共同で最適化し、優れた性能・効率のトレードオフを実現する。
時間段階の削減のために、デノナイジング過程の非一様性に合わせた非一様グルーピングスキームを考案する。
量子化の観点では、最終的な生成性能に対するそれぞれの貢献に基づいて、異なる層に異なるビット幅を割り当てる、きめ細かいレイヤーワイズアプローチを採用する。
論文 参考訳(メタデータ) (2024-04-15T07:51:40Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。