論文の概要: db-SP: Accelerating Sparse Attention for Visual Generative Models with Dual-Balanced Sequence Parallelism
- arxiv url: http://arxiv.org/abs/2511.23113v1
- Date: Fri, 28 Nov 2025 11:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.88126
- Title: db-SP: Accelerating Sparse Attention for Visual Generative Models with Dual-Balanced Sequence Parallelism
- Title(参考訳): db-SP:デュアルバランシーケンス並列性を有する視覚生成モデルに対するスパースアテンションの高速化
- Authors: Siqi Chen, Ke Hong, Tianchen Zhao, Ruiqi Xie, Zhenhua Zhu, Xudong Zhang, Yu Wang,
- Abstract要約: シーケンス並列化による拡散変換器(DiT)のスケーリングは、視覚発生の遅延を低減するために重要である。
スパース不均衡比を定式化して不均衡を定量化し、スパースを意識したシーケンス並列化手法であるdb-SPを提案する。
我々は,db-SPが1.25xのエンドツーエンドスピードアップと1.40xのアテンション特異的スピードアップを実現していることを示す。
- 参考スコア(独自算出の注目度): 14.406306253079515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling Diffusion Transformer (DiT) inference via sequence parallelism is critical for reducing latency in visual generation, but is severely hampered by workload imbalance when applied to models employing block-wise sparse attention. The imbalance stems from the inherent variation in sparsity across attention heads and the irregular distribution of dense blocks within the sparse mask, when sequence parallelism is applied along the head dimension (as in Ulysses) or the block dimension (as in Ring Attention). In this paper, we formalize a sparse imbalance ratio to quantify the imbalance, and propose db-SP, a sparsity-aware sequence parallelism technique that tackles the challenge. db-SP contains a dual-level partitioning approach that achieves near-perfect workload balance at both the head and block levels with negligible overhead. Furthermore, to handle the evolving sparsity patterns across denoising steps and layers, db-SP dynamically determines the parallel degrees for the head and block dimensions at runtime. Experimental results demonstrate that db-SP delivers an end-to-end speedup of 1.25x and an attention-specific speedup of 1.40x over state-of-the-art sequence parallel methods on average. Code is available at https://github.com/thu-nics/db-SP.
- Abstract(参考訳): シーケンス並列性による拡散変圧器(DiT)のスケーリングは、視覚発生の遅延を低減するために重要であるが、ブロックワイズスパースを用いたモデルに適用した場合、負荷の不均衡により著しく妨げられる。
この不均衡は、(ユリシーズのような)ヘッド次元やブロック次元(リング注意のような)ヘッド次元に沿ってシーケンス並列性を適用するとき、注目ヘッド間のスパース性やスパースマスク内の密ブロックの不規則分布に起因している。
本稿では,不均衡を定量化するためにスパース不均衡比を定式化し,この課題に対処するスパース・アウェア・シーケンス並列化手法であるdb-SPを提案する。
db-SPにはデュアルレベルのパーティショニングアプローチがあり、ヘッドレベルとブロックレベルの両方でほぼ完璧なワークロードバランスを、無視可能なオーバーヘッドで実現している。
さらに、段階や層をまたいだ空間パターンの進化に対処するため、db-SPは実行時に頭部とブロック次元の平行度を動的に決定する。
実験の結果、db-SPは平均で1.25倍のエンドツーエンドのスピードアップと1.40倍のアテンション比の並列化を実現していることがわかった。
コードはhttps://github.com/thu-nics/db-SPで入手できる。
関連論文リスト
- Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models [54.81955614221652]
同時トークン更新を可能にする並列デコード。厳格な推論にしばしば必要とされる因果順序と競合する。
単純な推論タスクと複雑な推論タスクの両方において、DLLMは直接決定可能な出力に対してのみ真の並列性を示すことを示す。
そこで本研究では,PSCによる非効率性と非効率性を低減するために,いくつかの実用的な緩和,並列指向プロンプト,拡散早期停止,並列スケーリングを提案する。
論文 参考訳(メタデータ) (2025-10-10T16:58:14Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Balancing Computation Load and Representation Expressivity in Parallel Hybrid Neural Networks [5.877451898618022]
FlowHNは、ロードバランシングのさまざまな戦略に対応する、新しい並列ハイブリッドネットワークアーキテクチャである。
FlowHNの2つの革新的な差別化要因は、注意とSSMブランチの間で分割されたFLOP認識動的トークンである。
論文 参考訳(メタデータ) (2025-05-26T03:52:22Z) - Two-dimensional Parallel Tempering for Constrained Optimization [0.3068068202044424]
パワーパラレルテンパリングアルゴリズム(PT)の2次元拡張を導入する。
結果として得られる2次元並列テンパリングアルゴリズム(2D-PT)は、厳密な制約のあるレプリカの混合を改善する。
この方法は制約付きIsing問題に広く適用され、既存のIsingマシンにデプロイできる。
論文 参考訳(メタデータ) (2025-05-24T20:41:45Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。