論文の概要: DiTFastAttn: Attention Compression for Diffusion Transformer Models
- arxiv url: http://arxiv.org/abs/2406.08552v1
- Date: Wed, 12 Jun 2024 18:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 22:27:16.705865
- Title: DiTFastAttn: Attention Compression for Diffusion Transformer Models
- Title(参考訳): DiTFastAttn:拡散変圧器モデルに対する注意圧縮
- Authors: Zhihang Yuan, Pu Lu, Hanling Zhang, Xuefei Ning, Linfeng Zhang, Tianchen Zhao, Shengen Yan, Guohao Dai, Yu Wang,
- Abstract要約: 拡散変換器(DiT)は画像およびビデオ生成において優れるが、自己注意の2次複雑さのために計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するためのポストトレーニング圧縮手法であるDiTFastAttnを提案する。
画像生成では,FLOPの最大88%を削減し,高分解能発生時の最大1.6倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 26.095923502799664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiT) excel at image and video generation but face computational challenges due to self-attention's quadratic complexity. We propose DiTFastAttn, a novel post-training compression method to alleviate DiT's computational bottleneck. We identify three key redundancies in the attention computation during DiT inference: 1. spatial redundancy, where many attention heads focus on local information; 2. temporal redundancy, with high similarity between neighboring steps' attention outputs; 3. conditional redundancy, where conditional and unconditional inferences exhibit significant similarity. To tackle these redundancies, we propose three techniques: 1. Window Attention with Residual Caching to reduce spatial redundancy; 2. Temporal Similarity Reduction to exploit the similarity between steps; 3. Conditional Redundancy Elimination to skip redundant computations during conditional generation. To demonstrate the effectiveness of DiTFastAttn, we apply it to DiT, PixArt-Sigma for image generation tasks, and OpenSora for video generation tasks. Evaluation results show that for image generation, our method reduces up to 88\% of the FLOPs and achieves up to 1.6x speedup at high resolution generation.
- Abstract(参考訳): 拡散変換器(DiT)は画像およびビデオ生成において優れるが、自己注意の2次複雑さのために計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するためのポストトレーニング圧縮手法であるDiTFastAttnを提案する。
DiT推論における注意計算における3つの重要な冗長性を特定する。
1. 地域情報に注目が集まる空間冗長性
2. 隣接するステップの注意出力と高い類似性を有する時間的冗長性
3.条件的冗長性。条件的推論と非条件的推論は極めて類似している。
このような冗長性に対処するために,我々は3つの手法を提案する。
1.空間冗長性を低減するための残留キャッシングによる窓の注意
2 ステップ間の類似性を利用するための時間的類似度低減
3.条件付き冗長性除去 -条件付き生成時の冗長計算を省略する。
DiTFastAttnの有効性を実証するために、画像生成タスクにDiT、PixArt-Sigma、ビデオ生成タスクにOpenSoraに適用する。
その結果,画像生成においてFLOPの最大88%を削減し,高分解能発生時の最大1.6倍の高速化を実現した。
関連論文リスト
- SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文 参考訳(メタデータ) (2024-03-25T17:59:35Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive
Generation [29.30999290150683]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - Clockwork Diffusion: Efficient Generation With Model-Step Distillation [42.01130983628078]
クロックワーク拡散(英: Clockwork Diffusion)は、1つ以上のステップで低解像度特徴写像を近似するために、前処理ステップからの計算を定期的に再利用する手法である。
画像生成と画像編集の両方において、Clockworkは計算の複雑さを大幅に減らし、知覚スコアを同等または改善することを示した。
論文 参考訳(メタデータ) (2023-12-13T13:30:27Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Scalable Adaptive Computation for Iterative Generation [13.339848496653465]
リカレントインタフェースネットワーク(Recurrent Interface Networks, RIN)は、データ次元からコア計算を分離するアテンションベースのアーキテクチャである。
RINは、潜在トークンとデータトークンの間の情報の読み込みと書き込みにクロスアテンションを使用する、潜在トークンのセットに計算の大部分を集中する。
RINは、画像生成とビデオ生成のための最先端のピクセル拡散モデルを生成し、カスケードやガイダンスなしで1024X1024画像にスケーリングする。
論文 参考訳(メタデータ) (2022-12-22T18:55:45Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z) - RD-Optimized Trit-Plane Coding of Deep Compressed Image Latent Tensors [40.86513649546442]
DPICTは、きめ細かいスケーラビリティをサポートする最初の学習ベースの画像である。
本稿では,トライトプレーンスライシングとRD優先伝送という,DPICTの2つの重要なコンポーネントを効率的に実装する方法について述べる。
論文 参考訳(メタデータ) (2022-03-25T06:33:16Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。