論文の概要: SlimDiff: Training-Free, Activation-Guided Hands-free Slimming of Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.21498v1
- Date: Thu, 25 Sep 2025 19:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.962524
- Title: SlimDiff: Training-Free, Activation-Guided Hands-free Slimming of Diffusion Models
- Title(参考訳): SlimDiff: ディフュージョンモデルのトレーニングフリー、アクティベーションガイドなしハンズフリースライミング
- Authors: Arani Roy, Shristi Das Biswas, Kaushik Roy,
- Abstract要約: SlimDiffはアクティベーションインフォームド構造圧縮フレームワークである。
DMの注意とフィードフォワード次元の両方を減少させるが、完全に勾配のない。
最大で35%のアクセラレーションと、ベースラインに対する$sim$100Mパラメータの削減を実現している。
- 参考スコア(独自算出の注目度): 7.68494752148263
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models (DMs), lauded for their generative performance, are computationally prohibitive due to their billion-scale parameters and iterative denoising dynamics. Existing efficiency techniques, such as quantization, timestep reduction, or pruning, offer savings in compute, memory, or runtime but are strictly bottlenecked by reliance on fine-tuning or retraining to recover performance. In this work, we introduce SlimDiff, an automated activation-informed structural compression framework that reduces both attention and feedforward dimensionalities in DMs, while being entirely gradient-free. SlimDiff reframes DM compression as a spectral approximation task, where activation covariances across denoising timesteps define low-rank subspaces that guide dynamic pruning under a fixed compression budget. This activation-aware formulation mitigates error accumulation across timesteps by applying module-wise decompositions over functional weight groups: query--key interactions, value--output couplings, and feedforward projections, rather than isolated matrix factorizations, while adaptively allocating sparsity across modules to respect the non-uniform geometry of diffusion trajectories. SlimDiff achieves up to 35\% acceleration and $\sim$100M parameter reduction over baselines, with generation quality on par with uncompressed models without any backpropagation. Crucially, our approach requires only about 500 calibration samples, over 70$\times$ fewer than prior methods. To our knowledge, this is the first closed-form, activation-guided structural compression of DMs that is entirely training-free, providing both theoretical clarity and practical efficiency.
- Abstract(参考訳): 拡散モデル (DMs) は、その生成性能に敬意を表し、数十億のパラメータと反復的認知力学のために計算的に禁止されている。
量子化、タイムステップの削減、プルーニングといった既存の効率技術は、計算、メモリ、実行時の節約を提供するが、パフォーマンス回復のために微調整や再訓練に依存するため、厳密にボトルネックとなる。
本研究では,自動アクティベーションインフォーム構造圧縮フレームワークであるSlimDiffを紹介する。
SlimDiff は DM 圧縮をスペクトル近似タスクとして再設定し、デノナイジングタイムステップ間でのアクティベーション共分散は、固定された圧縮予算の下で動的プルーニングを導く低ランク部分空間を定義する。
このアクティベーション対応の定式化は、関数重み群上のモジュールワイド分解(英語版)を適用することで、時間ステップ間の誤差の蓄積を緩和する: クエリ-キー相互作用、値-出力結合、フィードフォワードプロジェクション(英語版)は、孤立行列分解ではなく、モジュール間の間隔を適応的に割り当て、拡散軌跡の非一様幾何学を尊重する。
SlimDiffは、最大35\%の加速と$\sim$100Mのパラメータ還元を実現し、バックプロパゲーションのない非圧縮モデルと同等の生成品質を実現している。
重要なことは、我々のアプローチは500以上のキャリブレーションサンプルしか必要とせず、70$\times$以前の方法よりも少ない。
我々の知る限り、これはDMのクローズドフォームでアクティベーション誘導型構造圧縮であり、完全にトレーニング不要であり、理論的明瞭さと実用的効率の両方を提供する。
関連論文リスト
- FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。
回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文 参考訳(メタデータ) (2025-05-29T19:42:35Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:06:40Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。