論文の概要: Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2511.16156v1
- Date: Thu, 20 Nov 2025 08:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.539384
- Title: Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers
- Title(参考訳): 拡散変圧器用連続層蒸留によるプラガブルプルーニング
- Authors: Jian Ma, Qirong Peng, Xujie Zhu, Peixing Xie, Chen Chen, Haonan Lu,
- Abstract要約: 拡散変換器(DiT)は画像生成において例外的な性能を示したが、その大きなパラメータ数は計算コストが高い。
提案するPlugable Pruning with Contiguous Layer Distillation (PPCL)は,DiTアーキテクチャ用に設計されたフレキシブルな構造化プルーニングフレームワークである。
- 参考スコア(独自算出の注目度): 10.251154683874033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have shown exceptional performance in image generation, yet their large parameter counts incur high computational costs, impeding deployment in resource-constrained settings. To address this, we propose Pluggable Pruning with Contiguous Layer Distillation (PPCL), a flexible structured pruning framework specifically designed for DiT architectures. First, we identify redundant layer intervals through a linear probing mechanism combined with the first-order differential trend analysis of similarity metrics. Subsequently, we propose a plug-and-play teacher-student alternating distillation scheme tailored to integrate depth-wise and width-wise pruning within a single training phase. This distillation framework enables flexible knowledge transfer across diverse pruning ratios, eliminating the need for per-configuration retraining. Extensive experiments on multiple Multi-Modal Diffusion Transformer architecture models demonstrate that PPCL achieves a 50\% reduction in parameter count compared to the full model, with less than 3\% degradation in key objective metrics. Notably, our method maintains high-quality image generation capabilities while achieving higher compression ratios, rendering it well-suited for resource-constrained environments. The open-source code, checkpoints for PPCL can be found at the following link: https://github.com/OPPO-Mente-Lab/Qwen-Image-Pruning.
- Abstract(参考訳): Diffusion Transformer (DiTs) は画像生成において例外的な性能を示したが、その大きなパラメータは高い計算コストを伴い、資源制約された環境への展開を妨げる。
そこで本研究では, 連続層蒸留(PPCL)を用いたプラガブル・プルーニング(Plugable Pruning with Contiguous Layer Distillation)を提案する。
まず,線形探索機構と類似度指標の1次差分傾向解析を組み合わせた冗長層間隔を同定する。
そこで本研究では,1つの学習段階内に深度・幅ワイドプルーニングを統合するために,教師と教師の交互蒸留方式を提案する。
この蒸留フレームワークは、様々なプルーニング比をまたいだ柔軟な知識伝達を可能にし、構成ごとの再訓練の必要性をなくす。
複数のマルチモード拡散変換器アーキテクチャモデルに対する大規模な実験により、PPCLは、主目的メトリックの3倍未満の劣化で、全モデルと比較してパラメータカウントの50倍の減少を達成することが示された。
特に,提案手法は圧縮率を高く保ちながら高品質な画像生成能力を維持し,資源制約環境に適している。
PPCLのソースコード、チェックポイントは、https://github.com/OPPO-Mente-Lab/Qwen-Image-Pruning.comのリンクで見ることができる。
関連論文リスト
- Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging [45.39911367007956]
ディープ・アンロールとプラグ・アンド・プレイのアプローチは、単画素イメージング(SPI)逆問題におけるデファクトとなっている。
本稿では,両クラスの解き手の強みを統合するという課題に対処する。
論文 参考訳(メタデータ) (2025-05-29T07:16:57Z) - Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。
本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。
このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文 参考訳(メタデータ) (2025-01-06T06:34:52Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。