論文の概要: DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2503.22796v1
- Date: Fri, 28 Mar 2025 18:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:38.359490
- Title: DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers
- Title(参考訳): DiTFastAttnV2:多モード拡散変圧器の頭部注意圧縮
- Authors: Hanling Zhang, Rundong Su, Zhihang Yuan, Pengtao Chen, Mingzhu Shen Yibo Fan, Shengen Yan, Guohao Dai, Yu Wang,
- Abstract要約: そこで本研究では,テキスト・画像生成モデルにおける注目度向上を目的としたポストトレーニング圧縮手法であるDiTFastAttnV2を紹介する。
MMDiTの注意パターンの詳細な分析を通じて,頭部矢印の注意とキャッシング機構を提案する。
カスタマイズされたカーネルでは、DiTFastAttnV2は注目のFLOPを68%削減し、2K画像生成におけるエンドツーエンドのスピードアップを1.5倍に向上させる。
- 参考スコア(独自算出の注目度): 8.697604549478159
- License:
- Abstract: Text-to-image generation models, especially Multimodal Diffusion Transformers (MMDiT), have shown remarkable progress in generating high-quality images. However, these models often face significant computational bottlenecks, particularly in attention mechanisms, which hinder their scalability and efficiency. In this paper, we introduce DiTFastAttnV2, a post-training compression method designed to accelerate attention in MMDiT. Through an in-depth analysis of MMDiT's attention patterns, we identify key differences from prior DiT-based methods and propose head-wise arrow attention and caching mechanisms to dynamically adjust attention heads, effectively bridging this gap. We also design an Efficient Fused Kernel for further acceleration. By leveraging local metric methods and optimization techniques, our approach significantly reduces the search time for optimal compression schemes to just minutes while maintaining generation quality. Furthermore, with the customized kernel, DiTFastAttnV2 achieves a 68% reduction in attention FLOPs and 1.5x end-to-end speedup on 2K image generation without compromising visual fidelity.
- Abstract(参考訳): テキスト・画像生成モデル、特にMultimodal Diffusion Transformers (MMDiT)は、高品質な画像の生成において顕著な進歩を見せている。
しかし、これらのモデルは、特に注意機構において重要な計算ボトルネックに直面し、スケーラビリティと効率を妨げている。
本稿では,MMDiTの注目度向上を目的とした後処理圧縮手法であるDiTFastAttnV2を紹介する。
MMDiTの注意パターンの詳細な分析を通じて,従来のDiT法との大きな違いを識別し,頭部を動的に調整する頭部矢印注意・キャッシング機構を提案し,このギャップを効果的に埋める。
我々はさらに加速するために、効率的な融合カーネルを設計する。
局所的な計量法と最適化手法を利用することで、最適圧縮方式の探索時間を、生成品質を維持しながら数分に短縮する。
さらに、カスタマイズされたカーネルにより、DiTFastAttnV2は、視覚的忠実さを損なうことなく、2K画像生成における68%の注意FLOPと1.5倍のエンドツーエンドのスピードアップを達成する。
関連論文リスト
- Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - DiTFastAttn: Attention Compression for Diffusion Transformer Models [26.095923502799664]
拡散変換器(DiT)は画像および映像生成において優れるが、自己注意演算子による計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するための後処理圧縮手法であるDiTFastAttnを提案する。
その結果,画像生成ではFLOPの最大76%を削減し,高分解能(2k x 2k)世代で最大1.8倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-12T18:00:08Z) - VTrans: Accelerating Transformer Compression with Variational Information Bottleneck based Pruning [3.256420760342604]
本稿では,変分情報ボトルネック (VIB) の原理によって導かれる反復的刈り取りフレームワーク VTrans を提案する。
提案手法は,VIBトレーニングマスクを用いた埋め込み,アテンションヘッド,層など,すべての構造成分を圧縮する。
特に,本手法は従来の最先端手法よりも最大70%圧縮を実現する。
論文 参考訳(メタデータ) (2024-06-07T22:07:46Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。