論文の概要: LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2511.11062v1
- Date: Fri, 14 Nov 2025 08:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.497952
- Title: LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
- Title(参考訳): LiteAttention:拡散変換器の時間的スパース注意
- Authors: Dor Shmilovich, Tony Wu, Aviad Dahan, Yuval Domb,
- Abstract要約: LiteAttentionは時間的コヒーレンスを利用して、デノナイジングシーケンスを横断する進化的計算スキップを可能にする。
我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、プロダクションビデオ拡散モデルにかなりのスピードアップを示す。
- 参考スコア(独自算出の注目度): 1.3471268811218626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers, particularly for video generation, achieve remarkable quality but suffer from quadratic attention complexity, leading to prohibitive latency. Existing acceleration methods face a fundamental trade-off: dynamically estimating sparse attention patterns at each denoising step incurs high computational overhead and estimation errors, while static sparsity patterns remain fixed and often suboptimal throughout denoising. We identify a key structural property of diffusion attention, namely, its sparsity patterns exhibit strong temporal coherence across denoising steps. Tiles deemed non-essential at step $t$ typically remain so at step $t+δ$. Leveraging this observation, we introduce LiteAttention, a method that exploits temporal coherence to enable evolutionary computation skips across the denoising sequence. By marking non-essential tiles early and propagating skip decisions forward, LiteAttention eliminates redundant attention computations without repeated profiling overheads, combining the adaptivity of dynamic methods with the efficiency of static ones. We implement a highly optimized LiteAttention kernel on top of FlashAttention and demonstrate substantial speedups on production video diffusion models, with no degradation in quality. The code and implementation details will be publicly released.
- Abstract(参考訳): 拡散変換器は、特にビデオ生成において顕著な品質を達成するが、2次注意の複雑さに悩まされ、遅延が禁止される。
既存の加速度法は基本的なトレードオフに直面している: 各デノナイジングステップでスパース注意パターンを動的に推定すると、高い計算オーバーヘッドと推定誤差が発生するが、静的なスパーシティパターンは固定され、デノナイジング全体を通してしばしば最適である。
拡散注意の鍵となる構造的特徴を同定し,その疎度パターンは認知段階にまたがって強い時間的コヒーレンスを示す。
ステップ $t$ で非必要とみなされるタイルは通常、ステップ $t+δ$ で残る。
この観測を応用して,時間的コヒーレンスを利用して進化的計算のスキップを可能にするLiteAttentionを導入する。
重要でないタイルを早期にマークし、スキップ決定を先延ばしすることで、LiteAttentionは、反復的なプロファイリングオーバーヘッドを伴わずに冗長な注意計算を排除し、動的メソッドの適応性と静的なタイルの効率を結合する。
我々は、FlashAttention上に高度に最適化された LiteAttentionカーネルを実装し、品質の劣化を伴わず、プロダクションビデオ拡散モデルにかなりのスピードアップを示す。
コードと実装の詳細は、公開される予定だ。
関連論文リスト
- SparseD: Sparse Attention for Diffusion Language Models [98.05780626106555]
拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供する
既存のオープンソースDLMは、高い推論遅延に悩まされている。
DLMのための新しいスパースアテンション手法であるスパースDを提案する。
論文 参考訳(メタデータ) (2025-09-28T18:10:10Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment [14.097906894386066]
PostDiffは、トレーニング済みの拡散モデルを加速するためのトレーニング不要のフレームワークである。
我々はPostDiffが最先端拡散モデルの忠実性と効率のトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2025-08-08T09:29:37Z) - Sortblock: Similarity-Aware Feature Reuse for Diffusion Model [9.749736545966694]
Diffusion Transformer (DiTs) は顕著な生成能を示した。
DiTのシーケンシャルな denoising プロセスは、高い推論遅延をもたらす。
トレーニング不要な推論アクセラレーションフレームワークであるSoltblockを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:10:54Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [31.615453637053793]
Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。
本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。
AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-28T14:11:20Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep Tuner [112.99126045081046]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小コストで特定の区間に対してより正確な積分方向を求めるのに役立つtextbftimestep tunerを提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。