Fugu-MT 論文翻訳(概要): DiTFastAttn: Attention Compression for Diffusion Transformer Models

論文の概要: DiTFastAttn: Attention Compression for Diffusion Transformer Models

arxiv url: http://arxiv.org/abs/2406.08552v1
Date: Wed, 12 Jun 2024 18:00:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 22:27:16.705865
Title: DiTFastAttn: Attention Compression for Diffusion Transformer Models
Title（参考訳）: DiTFastAttn:拡散変圧器モデルに対する注意圧縮
Authors: Zhihang Yuan, Pu Lu, Hanling Zhang, Xuefei Ning, Linfeng Zhang, Tianchen Zhao, Shengen Yan, Guohao Dai, Yu Wang,
Abstract要約: 拡散変換器(DiT)は画像およびビデオ生成において優れるが、自己注意の2次複雑さのために計算上の課題に直面している。本稿では,DiTの計算ボトルネックを軽減するためのポストトレーニング圧縮手法であるDiTFastAttnを提案する。画像生成では,FLOPの最大88%を削減し,高分解能発生時の最大1.6倍の高速化を実現する。
参考スコア（独自算出の注目度）: 26.095923502799664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion Transformers (DiT) excel at image and video generation but face computational challenges due to self-attention's quadratic complexity. We propose DiTFastAttn, a novel post-training compression method to alleviate DiT's computational bottleneck. We identify three key redundancies in the attention computation during DiT inference: 1. spatial redundancy, where many attention heads focus on local information; 2. temporal redundancy, with high similarity between neighboring steps' attention outputs; 3. conditional redundancy, where conditional and unconditional inferences exhibit significant similarity. To tackle these redundancies, we propose three techniques: 1. Window Attention with Residual Caching to reduce spatial redundancy; 2. Temporal Similarity Reduction to exploit the similarity between steps; 3. Conditional Redundancy Elimination to skip redundant computations during conditional generation. To demonstrate the effectiveness of DiTFastAttn, we apply it to DiT, PixArt-Sigma for image generation tasks, and OpenSora for video generation tasks. Evaluation results show that for image generation, our method reduces up to 88\% of the FLOPs and achieves up to 1.6x speedup at high resolution generation.
Abstract（参考訳）: 拡散変換器(DiT)は画像およびビデオ生成において優れるが、自己注意の2次複雑さのために計算上の課題に直面している。本稿では,DiTの計算ボトルネックを軽減するためのポストトレーニング圧縮手法であるDiTFastAttnを提案する。 DiT推論における注意計算における3つの重要な冗長性を特定する。 1. 地域情報に注目が集まる空間冗長性 2. 隣接するステップの注意出力と高い類似性を有する時間的冗長性 3.条件的冗長性。条件的推論と非条件的推論は極めて類似している。このような冗長性に対処するために,我々は3つの手法を提案する。 1.空間冗長性を低減するための残留キャッシングによる窓の注意 2 ステップ間の類似性を利用するための時間的類似度低減 3.条件付き冗長性除去 -条件付き生成時の冗長計算を省略する。 DiTFastAttnの有効性を実証するために、画像生成タスクにDiT、PixArt-Sigma、ビデオ生成タスクにOpenSoraに適用する。その結果,画像生成においてFLOPの最大88%を削減し,高分解能発生時の最大1.6倍の高速化を実現した。

関連論文リスト

Exploring Diffusion with Test-Time Training on Efficient Image Restoration [1.3830502387127932]
DiffRWKVIRは、効率的な拡散を伴うテスト時間トレーニング(TTT)を統合する新しいフレームワークである。本手法は,ハードウェアの最適化による適応的,高効率な画像復元のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-06-17T14:01:59Z)
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [24.105473321347894]
本稿では,ビデオ拡散変換器(vDiT)の空間加速度フレームワークであるSparse-vDiTを提案する。 Sparse-vDiT が 2.09$times$, 2.38$times$, 1.67$times$理論 FLOP 還元, 1.76$times$, 1.85$times$, 1.58$times$ をそれぞれ達成していることを示す。我々の研究は、vDiTsの潜伏構造空間を長期ビデオ合成に体系的に活用できることを実証した。
論文参考訳（メタデータ） (2025-06-03T16:42:37Z)
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [23.01286982392074]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文参考訳（メタデータ） (2025-05-28T22:39:12Z)
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文参考訳（メタデータ） (2025-05-28T04:23:22Z)
PiT: Progressive Diffusion Transformer [50.46345527963736]
Pseudo textbfProgressive Dtextbfiffusion textbfTransformer (textbfPiT)を提案する。提案したPiT-Lは,演算量が少なく,DiT-XL/2よりも54%$uparrow$FIDの改善を実現している。
論文参考訳（メタデータ） (2025-05-19T15:02:33Z)
DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers [8.697604549478159]
そこで本研究では,テキスト・画像生成モデルにおける注目度向上を目的としたポストトレーニング圧縮手法であるDiTFastAttnV2を紹介する。 MMDiTの注意パターンの詳細な分析を通じて,頭部矢印の注意とキャッシング機構を提案する。カスタマイズされたカーネルでは、DiTFastAttnV2は注目のFLOPを68%削減し、2K画像生成におけるエンドツーエンドのスピードアップを1.5倍に向上させる。
論文参考訳（メタデータ） (2025-03-28T18:00:12Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
Hadamard Attention Recurrent Transformer: A Strong Baseline for Stereo Matching Transformer [54.97718043685824]
本稿では,HART(Hadamard Attention Recurrent Stereo Transformer)について述べる。より高速な推論のために、線形計算複雑性を実現するための注意機構のためのアダマール積のパラダイムを提案する。我々はDense Attention Kernel(DAK)を設計し、関連する機能応答と無関係な機能応答の違いを増幅した。反映的な領域では、HARTは提出時のすべてのメソッドの中で、KITTI 2012ベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2025-01-02T02:51:16Z)
Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文参考訳（メタデータ） (2024-12-22T02:04:17Z)
Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。本研究では,動的拡散変換器 (DyDiT) を提案する。 3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文参考訳（メタデータ） (2024-10-04T14:14:28Z)
Qihoo-T2X: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Any-Task [42.422925759342874]
本稿では,グローバルな視覚情報を効率的にモデル化するためのPT-DiT(Proxy-Tokenized Diffusion Transformer)を提案する。各トランスブロック内で、各時空間ウィンドウから平均化トークンを計算し、その領域のプロキシトークンとして機能する。また,スパースアテンション機構によって引き起こされる詳細モデリングの限界に対処するために,ウィンドウとシフトウインドウのアテンションを導入する。
論文参考訳（メタデータ） (2024-09-06T03:13:45Z)
Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。 VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文参考訳（メタデータ） (2024-07-27T08:21:14Z)
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-19T18:18:33Z)
CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文参考訳（メタデータ） (2023-09-27T16:12:07Z)
Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文参考訳（メタデータ） (2023-08-14T08:23:58Z)
Scalable Adaptive Computation for Iterative Generation [13.339848496653465]
リカレントインタフェースネットワーク(Recurrent Interface Networks, RIN)は、データ次元からコア計算を分離するアテンションベースのアーキテクチャである。 RINは、潜在トークンとデータトークンの間の情報の読み込みと書き込みにクロスアテンションを使用する、潜在トークンのセットに計算の大部分を集中する。 RINは、画像生成とビデオ生成のための最先端のピクセル拡散モデルを生成し、カスケードやガイダンスなしで1024X1024画像にスケーリングする。
論文参考訳（メタデータ） (2022-12-22T18:55:45Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
RD-Optimized Trit-Plane Coding of Deep Compressed Image Latent Tensors [40.86513649546442]
DPICTは、きめ細かいスケーラビリティをサポートする最初の学習ベースの画像である。本稿では,トライトプレーンスライシングとRD優先伝送という,DPICTの2つの重要なコンポーネントを効率的に実装する方法について述べる。
論文参考訳（メタデータ） (2022-03-25T06:33:16Z)
Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文参考訳（メタデータ） (2022-02-09T18:48:02Z)
FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。 FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文参考訳（メタデータ） (2020-08-06T08:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。