論文の概要: TASP: Topology-aware Sequence Parallelism
- arxiv url: http://arxiv.org/abs/2509.26541v1
- Date: Tue, 30 Sep 2025 17:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.633041
- Title: TASP: Topology-aware Sequence Parallelism
- Title(参考訳): TASP:Topology-Aware Sequence Parallelism
- Authors: Yida Wang, Ke Hong, Xiuhong Li, Yuanchao Xu, Wenxun Wang, Guohao Dai, Yu Wang,
- Abstract要約: Long-context Large Language Model (LLM) は自己認識機構の2次複雑さのために制約に直面している。
Ring Attentionは、クエリをアクセラレータにまたがる複数のクエリチャンクに分散することで、この問題を解決する。
通信効率が低く、実用性が制限されている。
長文LLMのためのトポロジ対応SP法であるTASPを提案する。
- 参考スコア(独自算出の注目度): 12.890848435896578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context large language models (LLMs) face constraints due to the quadratic complexity of the self-attention mechanism. The mainstream sequence parallelism (SP) method, Ring Attention, attempts to solve this by distributing the query into multiple query chunks across accelerators and enable each Q tensor to access all KV tensors from other accelerators via the Ring AllGather communication primitive. However, it exhibits low communication efficiency, restricting its practical applicability. This inefficiency stems from the mismatch between the Ring AllGather communication primitive it adopts and the AlltoAll topology of modern accelerators. A Ring AllGather primitive is composed of iterations of ring-styled data transfer, which can only utilize a very limited fraction of an AlltoAll topology. Inspired by the Hamiltonian decomposition of complete directed graphs, we identify that modern accelerator topology can be decomposed into multiple orthogonal ring datapaths which can concurrently transfer data without interference. Based on this, we further observe that the Ring AllGather primitive can also be decomposed into the same number of concurrent ring-styled data transfer at every iteration. Based on these insights, we propose TASP, a topology-aware SP method for long-context LLMs that fully utilizes the communication capacity of modern accelerators via topology decomposition and primitive decomposition. Experimental results on both single-node and multi-node NVIDIA H100 systems and a single-node AMD MI300X system demonstrate that TASP achieves higher communication efficiency than Ring Attention on these modern accelerator topologies and achieves up to 3.58 speedup than Ring Attention and its variant Zigzag-Ring Attention. The code is available at https://github.com/infinigence/HamiltonAttention.
- Abstract(参考訳): Long-context Large Language Model (LLM) は自己認識機構の2次複雑さのために制約に直面している。
メインストリームシーケンス並列 (SP) 法である Ring Attention では、クエリをアクセラレータ間で複数のクエリチャンクに分散し、各Qテンソルが Ring AllGather 通信プリミティブを介して他のアクセラレータからすべての KV テンソルにアクセスできるようにする。
しかし、通信効率が低く、実用性が制限されている。
この非効率性は、Ring AllGather通信プリミティブと現代の加速器のAlltoAllトポロジーのミスマッチに起因する。
Ring AllGatherプリミティブは、AlltoAllトポロジの非常に限られた部分しか利用できないリングスタイルのデータ転送の反復で構成されている。
完備有向グラフのハミルトン分解に着想を得て、現代の加速器トポロジーは複数の直交環データパスに分解でき、干渉なしに同時にデータを転送できる。
これに基づいて、Ring AllGatherプリミティブが、イテレーション毎に同じ数のリングスタイルのデータ転送に分解可能であることも観察する。
これらの知見に基づいて, トポロジ分解とプリミティブ分解による現代加速器の通信能力を完全に活用した長文LLMのためのトポロジ対応SP法であるTASPを提案する。
シングルノードとマルチノードのNVIDIA H100システムとシングルノードのAMD MI300Xシステムの両方の実験結果から、TASPはRing Attentionよりも通信効率が高く、Ring AttentionとZigzag-Ring Attentionよりも最大3.58スピードアップを実現している。
コードはhttps://github.com/infinigence/HamiltonAttentionで入手できる。
関連論文リスト
- FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models [59.8871829077739]
FastFitは、キャッシュ可能な新しい拡散アーキテクチャに基づいた、高速なマルチ参照仮想試行フレームワークである。
本モデルでは,パラメータのオーバーヘッドを無視して参照特徴符号化をデノナイズ処理から完全に切り離す。
これにより、参照機能は一度だけ計算され、すべてのステップで損失なく再利用される。
論文 参考訳(メタデータ) (2025-08-28T09:25:52Z) - Distributed Learning over Arbitrary Topology: Linear Speed-Up with Polynomial Transient Time [3.1789549088190414]
本研究では, ピアツーピア通信によるローカルコスト関数の和を協調的に共有する分散学習問題について検討する。
本稿では、一般的な通信グラフから抽出した2本の木を用いて、モデルパラメータと位相パラメータの両方を分散する新しいEmph Tree PushPull-(STPP)を提案する。
論文 参考訳(メタデータ) (2025-03-20T13:11:44Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference [14.805702987440512]
我々は、推論中にテンソル並列通信のボトルネックを軽減するために設計された、新しい低ビット圧縮技術であるFlash Communicationを紹介する。
提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
論文 参考訳(メタデータ) (2024-12-06T11:29:32Z) - When Less is More: Achieving Faster Convergence in Distributed Edge Machine Learning [0.0]
リソース制約のあるエッジデバイス上での分散機械学習(DML)は、現実世界のアプリケーションにとって大きな可能性を秘めている。
本稿では,エッジデバイス上での効率的なDMLのための新しい確率的フレームワークであるHermesを提案する。
実世界の異種資源制約環境に対する評価は,Hermesが最先端の手法に比べて高速な収束を実現することを示す。
論文 参考訳(メタデータ) (2024-10-27T16:17:03Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Parallel window decoding enables scalable fault tolerant quantum
computation [2.624902795082451]
本稿では,デコード問題を並列化し,ほぼ任意のシンドローム処理速度を実現する手法を提案する。
並列化では、古典的なフィードバックの決定を遅らせる必要があり、論理クロックの速度が遅くなる。
既知のオート・テレポーテーション・ガジェットを使用すれば、キュービットオーバーヘッドの増加と引き換えに、スローダウンを完全に排除することができる。
論文 参考訳(メタデータ) (2022-09-18T12:37:57Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Long-range connectivity in a superconducting quantum processor using a
ring resonator [0.0]
リング共振器を多経路結合素子とし,その周囲に均一に分布する量子ビットを用いた新しい超伝導アーキテクチャを提案する。
理論的には、量子ビット接続を解析し、各量子ビットが他の9つの量子ビットに接続可能な最大12個の量子ビットをサポートする装置で実験的に検証する。
論文 参考訳(メタデータ) (2020-12-17T09:34:14Z) - Fast and Complete: Enabling Complete Neural Network Verification with
Rapid and Massively Parallel Incomplete Verifiers [112.23981192818721]
BaB プロセス中に線形計画法 (LP) を置き換えるために, 逆モード線形緩和に基づく解析法 (LiRPA) を提案する。
LPとは異なり、LiRPAを適用すると、より弱い境界が得られ、分割時にサブドメインのコンフリクトをチェックすることもできない。
既存のLPベースのアプローチと比較して、桁違いのスピードアップを示す。
論文 参考訳(メタデータ) (2020-11-27T16:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。