論文の概要: FlashOmni: A Unified Sparse Attention Engine for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2509.25401v1
- Date: Mon, 29 Sep 2025 18:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.279004
- Title: FlashOmni: A Unified Sparse Attention Engine for Diffusion Transformers
- Title(参考訳): FlashOmni:拡散変換器のための統一されたスパースアテンションエンジン
- Authors: Liang Qiao, Yue Dai, Yeqi Huang, Hongyu Kan, Jun Shi, Hong An,
- Abstract要約: Flash Omni は任意の DiT アーキテクチャと互換性のあるスパースアテンションエンジンである。
ほぼ直線で、注意力の空間比のスピードアップとGEMM-$Q$とをよく一致させ、GEMM-$O$で2.5$times$-3.8$times$Accelerationを達成している。
- 参考スコア(独自算出の注目度): 7.026182341295719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Modal Diffusion Transformers (DiTs) demonstrate exceptional capabilities in visual synthesis, yet their deployment remains constrained by substantial computational demands. To alleviate this bottleneck, many sparsity-based acceleration methods have been proposed. However, their diverse sparsity patterns often require customized kernels for high-performance inference, limiting universality. We propose FlashOmni, a unified sparse attention engine compatible with arbitrary DiT architectures. FlashOmni introduces flexible sparse symbols to standardize the representation of a wide range of sparsity strategies, such as feature caching and block-sparse skipping. This unified abstraction enables the execution of diverse sparse computations within a single attention kernel. In addition, FlashOmni designs optimized sparse GEMMs for attention blocks, leveraging sparse symbols to eliminate redundant computations and further improve efficiency. Experiments demonstrate that FlashOmni delivers near-linear, closely matching the sparsity ratio speedup (1:1) in attention and GEMM-$Q$, and achieves 2.5$\times$-3.8$\times$ acceleration in GEMM-$O$ (max peaking at about 87.5% of the theoretical limit). Applied with a multi-granularity sparsity strategy, it enables the Hunyuan model (33K) to achieve about 1.5$\times$ end-to-end acceleration without degrading visual quality.
- Abstract(参考訳): マルチモード拡散変換器(DiT)は、視覚合成において例外的な能力を示すが、その展開は相当な計算要求によって制限されている。
このボトルネックを軽減するために、多くの疎性に基づく加速度法が提案されている。
しかし、それらの多様なスパーシリティパターンは、しばしば高性能な推論のためにカスタマイズされたカーネルを必要とし、普遍性を制限する。
我々は、任意のDiTアーキテクチャと互換性のある統一されたスパースアテンションエンジンであるFlashOmniを提案する。
FlashOmniはフレキシブルなスパースシンボルを導入し、機能キャッシングやブロックスパーススキップといった幅広いスパース戦略の表現を標準化する。
この統合された抽象化により、単一の注目カーネル内で多様なスパース計算を実行することができる。
さらに、FlashOmniはスパースGEMMをアテンションブロックに最適化し、スパースシンボルを活用して冗長な計算を排除し、効率をさらに向上した。
実験では、FlashOmniがほぼ直線で、注意の間隔比のスピードアップ(1:1)とGEMM-$Q$とをよく一致させ、2.5$\times$-3.8$\times$Acceleration in GEMM-$O$(理論上の限界の最大ピークは87.5%)を達成した。
Hunyuanモデル(33K)では、視覚的品質を劣化させることなく、1.5$\times$ end-to-endAccelerationを実現できる。
関連論文リスト
- BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [24.105473321347894]
本稿では,ビデオ拡散変換器(vDiT)の空間加速度フレームワークであるSparse-vDiTを提案する。
Sparse-vDiT が 2.09$times$, 2.38$times$, 1.67$times$理論 FLOP 還元, 1.76$times$, 1.85$times$, 1.58$times$ をそれぞれ達成していることを示す。
我々の研究は、vDiTsの潜伏構造空間を長期ビデオ合成に体系的に活用できることを実証した。
論文 参考訳(メタデータ) (2025-06-03T16:42:37Z) - VEXP: A Low-Cost RISC-V ISA Extension for Accelerated Softmax Computation in Transformers [13.984340807378457]
ソフトマックスの加速は、非ポイント、非線形の性質のために困難であり、指数が最も要求されるステップである。
シュラウドルフ法に基づく新しい近似アルゴリズムを用いて, Bfloat16指数の算術ブロックを設計する。
我々は162.7$times$低レイテンシと74.3$times$低エネルギーでSoftmaxを実行する。
論文 参考訳(メタデータ) (2025-04-15T14:28:48Z) - SPECTRE: An FFT-Based Efficient Drop-In Replacement to Self-Attention for Long Contexts [2.200751835496112]
長文変換器は、自己注意の二次的なコストのため、大幅な効率の課題に直面している。
本稿では,各注目ヘッドを高速な実FFTで置き換えるSPECTREを提案する。
我々は、この効率をPrefix-FFTキャッシュを介して自動回帰生成に拡張し、オプションのウェーブレットモジュールで局所的な特徴表現を強化する。
論文 参考訳(メタデータ) (2025-02-25T17:43:43Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。