論文の概要: PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.01077v2
- Date: Tue, 03 Feb 2026 13:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.717183
- Title: PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers
- Title(参考訳): PISA: 効率のよい拡散変圧器のスパークアテンションはウィザー
- Authors: Haopeng Li, Shitong Shao, Wenliang Zhong, Zikai Zhou, Lichen Bai, Hui Xiong, Zeke Xie,
- Abstract要約: 拡散変換器はビデオおよび画像生成に基本となるが、その効率は注意の二次的複雑さによってボトルネックとなる。
PISA(Piecewise Sparse Attention)を提案する。
- 参考スコア(独自算出の注目度): 37.401543107035046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers are fundamental for video and image generation, but their efficiency is bottlenecked by the quadratic complexity of attention. While block sparse attention accelerates computation by attending only critical key-value blocks, it suffers from degradation at high sparsity by discarding context. In this work, we discover that attention scores of non-critical blocks exhibit distributional stability, allowing them to be approximated accurately and efficiently rather than discarded, which is essentially important for sparse attention design. Motivated by this key insight, we propose PISA, a training-free Piecewise Sparse Attention that covers the full attention span with sub-quadratic complexity. Unlike the conventional keep-or-drop paradigm that directly drop the non-critical block information, PISA introduces a novel exact-or-approximate strategy: it maintains exact computation for critical blocks while efficiently approximating the remainder through block-wise Taylor expansion. This design allows PISA to serve as a faithful proxy to full attention, effectively bridging the gap between speed and quality. Experimental results demonstrate that PISA achieves 1.91 times and 2.57 times speedups on Wan2.1-14B and Hunyuan-Video, respectively, while consistently maintaining the highest quality among sparse attention methods. Notably, even for image generation on FLUX, PISA achieves a 1.2 times acceleration without compromising visual quality. Code is available at: https://github.com/xie-lab-ml/piecewise-sparse-attention.
- Abstract(参考訳): 拡散変換器はビデオおよび画像生成に基本となるが、その効率は注意の二次的複雑さによってボトルネックとなる。
ブロックスパースアテンションは重要なキー値ブロックにのみ参加することで計算を加速するが、コンテキストを破棄することで高空間での劣化に悩まされる。
本研究では,非臨界ブロックのアテンションスコアが分布安定性を示すことを明らかにする。
この重要な洞察に触発され、我々はPISAを提案する。PISAはトレーニング不要のPiecewise Sparse Attentionで、サブクアッドラティックな複雑さに満ちた注意を網羅する。
PISAは、非クリティカルブロック情報を直接ドロップする従来の保持またはドロップのパラダイムとは異なり、ブロックワイドテイラー展開によって残りの部分を効率的に近似しながら、クリティカルブロックの正確な計算を維持しながら、新しい正確なまたは近似戦略を導入している。
この設計により、PISAは完全な注意を引くための忠実なプロキシとして機能し、スピードと品質のギャップを効果的に埋めることができる。
PISA は Wan2.1-14B と Hunyuan-Video でそれぞれ 1.91 倍,2.57 倍のスピードアップを達成した。
特に、FLUX上の画像生成においても、PISAは視覚的品質を損なうことなく1.2倍の加速を達成する。
コードは、https://github.com/xie-lab-ml/piecewise-sparse-attention.comで入手できる。
関連論文リスト
- PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation [34.8993443618652]
本稿では,映像理解と生成の両方に応用可能な汎用モジュールであるPraamid Sparse Attention (PSA)を提案する。
バイナリマスクの代わりに、PSAはマルチレベルプールされたKV表現を導入し、より微細なマスクの粒度を実現した。
この設計は、コンピュータビジョンにおける固定点量子化や古典的特徴ピラミッドネットワークに似ているが、計算効率を低く保ちながら、情報損失を効果的に軽減する。
論文 参考訳(メタデータ) (2025-12-03T18:02:11Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [38.37291040904089]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - XAttention: Block Sparse Attention with Antidiagonal Scoring [10.517760961650279]
LCTM(Long-context Transformer Models)は、現実世界のアプリケーションには不可欠であるが、注意の2次複雑さのために計算コストが高い。
本稿では,Sparse attention を用いてトランスフォーマーモデルにおける長文推論を劇的に高速化するプラグイン・アンド・プレイフレームワーク XAttention を紹介する。
論文 参考訳(メタデータ) (2025-03-20T17:59:58Z) - FilterViT and DropoutViT [0.0]
我々は、ダウンサンプリングの初期段階で注意に基づくQKV操作を行うViTの強化版を紹介した。
本稿では,フィルタブロックを用いて注目画素を選択するための有能マスクを作成するフィルタアテンション機構を提案する。
このアプローチは、注意に関わるトークンの数を効果的に減らし、計算複雑性を減らし、処理速度を向上する。
論文 参考訳(メタデータ) (2024-10-30T05:38:03Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。