論文の概要: Efficient Long-context Language Model Training by Core Attention Disaggregation
- arxiv url: http://arxiv.org/abs/2510.18121v1
- Date: Mon, 20 Oct 2025 21:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.640037
- Title: Efficient Long-context Language Model Training by Core Attention Disaggregation
- Title(参考訳): コアアテンション・デアグリゲーションによる長文言語モデル学習の効率化
- Authors: Yonghao Zhuang, Junda Chen, Bo Pang, Yi Gu, Yibo Zhu, Yimin Jiang, Ion Stoica, Eric Xing, Hao Zhang,
- Abstract要約: 本稿では,コアアテンション計算,ソフトマックス(QKT)Vをモデルの他の部分から分離することにより,長文大言語モデルの訓練を改善する手法を提案する。
本研究では,DistCAと呼ばれるシステムにCADを実装し,Ping-pong実行方式を用いて,計算処理と通信を重複させ,アテンションサーバ上でのインプレース実行によりメモリ使用量の削減を図る。
- 参考スコア(独自算出の注目度): 40.14172357304901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present core attention disaggregation (CAD), a technique that improves long-context large language model training by decoupling the core attention computation, softmax(QK^T)V, from the rest of the model and executing it on a separate pool of devices. In existing systems, core attention is colocated with other layers; at long context lengths, its quadratic compute growth compared to the near-linear growth of other components causes load imbalance and stragglers across data and pipeline parallel groups. CAD is enabled by two observations. First, core attention is stateless: it has no trainable parameters and only minimal transient data, so balancing reduces to scheduling compute-bound tasks. Second, it is composable: modern attention kernels retain high efficiency when processing fused batches of token-level shards with arbitrary lengths. CAD partitions core attention into token-level tasks and dispatches them to dedicated attention servers, which dynamically rebatch tasks to equalize compute without sacrificing kernel efficiency. We implement CAD in a system called DistCA, which uses a ping-pong execution scheme to fully overlap communication with computation and in-place execution on attention servers to reduce memory use. On 512 H200 GPUs and context lengths up to 512k tokens, DistCA improves end-to-end training throughput by up to 1.35x, eliminates data and pipeline parallel stragglers, and achieves near-perfect compute and memory balance.
- Abstract(参考訳): 我々は、コアアテンション計算であるソフトマックス(QK^T)Vをモデルの他の部分から切り離し、別のデバイスで実行することで、長文大言語モデルのトレーニングを改善する技術である、コアアテンション・デアグリゲーション(CAD)を提案する。
既存のシステムでは、コアアテンションは他のレイヤと同じ位置にあり、長いコンテキストでは、他のコンポーネントのほぼ直線的な成長に比べて二次的な計算成長は、データとパイプラインの並列グループ間の負荷不均衡とストラグラーを引き起こす。
CADは2つの観測によって実現される。
トレーニング可能なパラメータがなく、最小限のトランジェントデータしか持たないため、バランシングは計算バウンドタスクのスケジューリングに還元される。
第二に、現代の注目カーネルは、任意の長さのトークンレベルシャードの融合バッチを処理する際に高い効率を維持する。
CADはコアをトークンレベルのタスクに分割し、専用のアテンションサーバにディスパッチする。
本研究では,DistCAと呼ばれるシステムにCADを実装し,Ping-pong実行方式を用いて,計算処理と通信を重複させ,アテンションサーバ上でのインプレース実行によりメモリ使用量の削減を図る。
512 H200 GPUとコンテキスト長最大512kトークンでは、DistCAはエンドツーエンドのトレーニングスループットを最大1.35倍改善し、データとパイプライン並列ストラグラーを排除し、ほぼ完璧な計算とメモリバランスを実現する。
関連論文リスト
- ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs [22.542224045868117]
ByteScaleは、長いシーケンスと短いシーケンスの大規模な混合トレーニングのための効率的なフレームワークである。
ByteScaleはHybrid Data Parallelism(HDP)をベースにしている。
実験の結果,ByteScaleは最先端のトレーニングシステムよりも最大7.89倍優れていた。
論文 参考訳(メタデータ) (2025-02-28T17:01:03Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
複数のGPU間で正確な注意を並列化するための、Tree Attentionと呼ばれるアルゴリズムは、デバイス間デコーディングを可能にします。
我々は、Tree AttentionがLlama 3.1-8Bのデコード速度を最大4倍に向上し、様々なハードウェアやネットワークのセットアップに適用できることを実証した。
論文 参考訳(メタデータ) (2024-08-07T21:16:55Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。