論文の概要: DiTFastAttn: Attention Compression for Diffusion Transformer Models
- arxiv url: http://arxiv.org/abs/2406.08552v2
- Date: Fri, 18 Oct 2024 12:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 18:13:41.454092
- Title: DiTFastAttn: Attention Compression for Diffusion Transformer Models
- Title(参考訳): DiTFastAttn:拡散変圧器モデルに対する注意圧縮
- Authors: Zhihang Yuan, Hanling Zhang, Pu Lu, Xuefei Ning, Linfeng Zhang, Tianchen Zhao, Shengen Yan, Guohao Dai, Yu Wang,
- Abstract要約: 拡散変換器(DiT)は画像および映像生成において優れるが、自己注意演算子による計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するための後処理圧縮手法であるDiTFastAttnを提案する。
その結果,画像生成ではFLOPの最大76%を削減し,高分解能(2k x 2k)世代で最大1.8倍の高速化を実現した。
- 参考スコア(独自算出の注目度): 26.095923502799664
- License:
- Abstract: Diffusion Transformers (DiT) excel at image and video generation but face computational challenges due to the quadratic complexity of self-attention operators. We propose DiTFastAttn, a post-training compression method to alleviate the computational bottleneck of DiT. We identify three key redundancies in the attention computation during DiT inference: (1) spatial redundancy, where many attention heads focus on local information; (2) temporal redundancy, with high similarity between the attention outputs of neighboring steps; (3) conditional redundancy, where conditional and unconditional inferences exhibit significant similarity. We propose three techniques to reduce these redundancies: (1) Window Attention with Residual Sharing to reduce spatial redundancy; (2) Attention Sharing across Timesteps to exploit the similarity between steps; (3) Attention Sharing across CFG to skip redundant computations during conditional generation. We apply DiTFastAttn to DiT, PixArt-Sigma for image generation tasks, and OpenSora for video generation tasks. Our results show that for image generation, our method reduces up to 76% of the attention FLOPs and achieves up to 1.8x end-to-end speedup at high-resolution (2k x 2k) generation.
- Abstract(参考訳): 拡散変換器(DiT)は画像および映像生成において優れるが、自己注意演算子の二次的複雑さのために計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するための後処理圧縮手法であるDiTFastAttnを提案する。
我々は,DiT推論における注意計算における3つの重要な冗長性を特定する。(1)多くの注意が局所的な情報に注目する空間的冗長性,(2)隣接するステップの注意出力に高い類似性を有する時間的冗長性,(3)条件的および非条件的推論が顕著な類似性を示す条件的冗長性である。
1)空間的冗長性を低減するために残差共有を伴うウィンドウアテンション,(2)ステップ間の類似性を利用するタイムステップ間のアテンション共有,(3)条件生成時に冗長な計算を省略するCFG間のアテンション共有,の3つの手法を提案する。
DiTFastAttnをDiTに、PixArt-Sigmaを画像生成タスクに、OpenSoraをビデオ生成タスクに適用する。
その結果,画像生成ではFLOPの最大76%を削減し,高分解能(2k x 2k)世代で最大1.8倍の高速化を実現した。
関連論文リスト
- Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Qihoo-T2X: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Any-Task [42.422925759342874]
本稿では,グローバルな視覚情報を効率的にモデル化するためのPT-DiT(Proxy-Tokenized Diffusion Transformer)を提案する。
各トランスブロック内で、各時空間ウィンドウから平均化トークンを計算し、その領域のプロキシトークンとして機能する。
また,スパースアテンション機構によって引き起こされる詳細モデリングの限界に対処するために,ウィンドウとシフトウインドウのアテンションを導入する。
論文 参考訳(メタデータ) (2024-09-06T03:13:45Z) - Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。
本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2024-07-27T08:21:14Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Scalable Adaptive Computation for Iterative Generation [13.339848496653465]
リカレントインタフェースネットワーク(Recurrent Interface Networks, RIN)は、データ次元からコア計算を分離するアテンションベースのアーキテクチャである。
RINは、潜在トークンとデータトークンの間の情報の読み込みと書き込みにクロスアテンションを使用する、潜在トークンのセットに計算の大部分を集中する。
RINは、画像生成とビデオ生成のための最先端のピクセル拡散モデルを生成し、カスケードやガイダンスなしで1024X1024画像にスケーリングする。
論文 参考訳(メタデータ) (2022-12-22T18:55:45Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - RD-Optimized Trit-Plane Coding of Deep Compressed Image Latent Tensors [40.86513649546442]
DPICTは、きめ細かいスケーラビリティをサポートする最初の学習ベースの画像である。
本稿では,トライトプレーンスライシングとRD優先伝送という,DPICTの2つの重要なコンポーネントを効率的に実装する方法について述べる。
論文 参考訳(メタデータ) (2022-03-25T06:33:16Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。