論文の概要: DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2503.22796v1
- Date: Fri, 28 Mar 2025 18:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.799865
- Title: DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers
- Title(参考訳): DiTFastAttnV2:多モード拡散変圧器の頭部注意圧縮
- Authors: Hanling Zhang, Rundong Su, Zhihang Yuan, Pengtao Chen, Mingzhu Shen Yibo Fan, Shengen Yan, Guohao Dai, Yu Wang,
- Abstract要約: そこで本研究では,テキスト・画像生成モデルにおける注目度向上を目的としたポストトレーニング圧縮手法であるDiTFastAttnV2を紹介する。
MMDiTの注意パターンの詳細な分析を通じて,頭部矢印の注意とキャッシング機構を提案する。
カスタマイズされたカーネルでは、DiTFastAttnV2は注目のFLOPを68%削減し、2K画像生成におけるエンドツーエンドのスピードアップを1.5倍に向上させる。
- 参考スコア(独自算出の注目度): 8.697604549478159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation models, especially Multimodal Diffusion Transformers (MMDiT), have shown remarkable progress in generating high-quality images. However, these models often face significant computational bottlenecks, particularly in attention mechanisms, which hinder their scalability and efficiency. In this paper, we introduce DiTFastAttnV2, a post-training compression method designed to accelerate attention in MMDiT. Through an in-depth analysis of MMDiT's attention patterns, we identify key differences from prior DiT-based methods and propose head-wise arrow attention and caching mechanisms to dynamically adjust attention heads, effectively bridging this gap. We also design an Efficient Fused Kernel for further acceleration. By leveraging local metric methods and optimization techniques, our approach significantly reduces the search time for optimal compression schemes to just minutes while maintaining generation quality. Furthermore, with the customized kernel, DiTFastAttnV2 achieves a 68% reduction in attention FLOPs and 1.5x end-to-end speedup on 2K image generation without compromising visual fidelity.
- Abstract(参考訳): テキスト・画像生成モデル、特にMultimodal Diffusion Transformers (MMDiT)は、高品質な画像の生成において顕著な進歩を見せている。
しかし、これらのモデルは、特に注意機構において重要な計算ボトルネックに直面し、スケーラビリティと効率を妨げている。
本稿では,MMDiTの注目度向上を目的とした後処理圧縮手法であるDiTFastAttnV2を紹介する。
MMDiTの注意パターンの詳細な分析を通じて,従来のDiT法との大きな違いを識別し,頭部を動的に調整する頭部矢印注意・キャッシング機構を提案し,このギャップを効果的に埋める。
我々はさらに加速するために、効率的な融合カーネルを設計する。
局所的な計量法と最適化手法を利用することで、最適圧縮方式の探索時間を、生成品質を維持しながら数分に短縮する。
さらに、カスタマイズされたカーネルにより、DiTFastAttnV2は、視覚的忠実さを損なうことなく、2K画像生成における68%の注意FLOPと1.5倍のエンドツーエンドのスピードアップを達成する。
関連論文リスト
- Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - EDiT: Efficient Diffusion Transformers with Linear Compressed Attention [11.36660486878447]
DiTの注意の2次スケーリング特性は、高解像度の画像生成や限られたリソースを持つデバイスを妨げます。
これらの効率ボトルネックを軽減するために,効率的な拡散変換器(EDiT)を導入する。
PixArt-Sigma(Conventional DiT)とStable Diffusion 3.5-Medium(MM-DiT)に統合することで,EDiTおよびMM-EDiTアーキテクチャの有効性を示す。
論文 参考訳(メタデータ) (2025-03-20T21:58:45Z) - MambaIC: State Space Models for High-Performance Learned Image Compression [53.991726013454695]
多数のフィールドをまたいだリアルタイム情報伝送には,高性能な画像圧縮アルゴリズムが不可欠である。
状態空間モデル(SSM)の長距離依存性の捕捉効果に着想を得て,SSMを利用して既存手法の計算不効率に対処する。
そこで本稿では,MambaICと呼ばれる洗練されたコンテキストモデリングによる画像圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-16T11:32:34Z) - Q&C: When Quantization Meets Cache in Efficient Image Generation [24.783679431414686]
拡散変換器(DiT)の量子化とキャッシュ機構の組み合わせは簡単ではない。
本稿では,上記の課題に対処してハイブリッド加速法を提案する。
競合生成能力を保ちながら,DiTsを12.7倍高速化した。
論文 参考訳(メタデータ) (2025-03-04T11:19:02Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
本研究では,Long-Skip-Connections (LSC) で拡張された新しい DiT バリアントである Skip-DiT を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - DiTFastAttn: Attention Compression for Diffusion Transformer Models [26.095923502799664]
拡散変換器(DiT)は画像および映像生成において優れるが、自己注意演算子による計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するための後処理圧縮手法であるDiTFastAttnを提案する。
その結果,画像生成ではFLOPの最大76%を削減し,高分解能(2k x 2k)世代で最大1.8倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-12T18:00:08Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。