論文の概要: DASH: Deterministic Attention Scheduling for High-throughput Reproducible LLM Training
- arxiv url: http://arxiv.org/abs/2601.21824v1
- Date: Thu, 29 Jan 2026 15:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.920557
- Title: DASH: Deterministic Attention Scheduling for High-throughput Reproducible LLM Training
- Title(参考訳): DASH:高スループット再生可能LDMトレーニングのための決定論的注意スケジューリング
- Authors: Xinwei Qiang, Hongmin Chen, Shixuan Sun, Jingwen Leng, Xin Liu, Minyi Guo,
- Abstract要約: FlashAttention-3のような広く使われているアテンション実装では、決定論的後方通過は37.9%のスループット低下を引き起こす。
我々は、DAG(Directed Acyclic Graph)上のスケジューリング問題として、決定論的注意の後方通過を定式化する。
本稿では2つの相補的なスケジューリング戦略をカプセル化したDASH(Deterministic Attention Scheduling for High-Throughput)を提案する。
- 参考スコア(独自算出の注目度): 22.898073682504023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determinism is indispensable for reproducibility in large language model (LLM) training, yet it often exacts a steep performance cost. In widely used attention implementations such as FlashAttention-3, the deterministic backward pass can incur up to a 37.9% throughput reduction relative to its non-deterministic counterpart, primarily because gradient accumulation operations must be serialized to guarantee numerical consistency. This performance loss stems from suboptimal scheduling of compute and gradient-reduction phases, leading to significant hardware underutilization. To address this challenge, we formulate the backward pass of deterministic attention as a scheduling problem on a Directed Acyclic Graph (DAG) and derive schedules that minimize the critical path length. Building on this formulation, we present DASH (Deterministic Attention Scheduling for High-Throughput), which encapsulates two complementary scheduling strategies: (i) Descending Q-Tile Iteration, a reversed query-block traversal that shrinks pipeline stalls in causal attention, and (ii) Shift Scheduling, a theoretically optimal schedule within our DAG model that reduces pipeline stalls for both full and causal masks. Our empirical evaluations on NVIDIA H800 GPUs demonstrate that DASH narrows the performance gap of deterministic attention. The proposed strategies improve the throughput of the attention backward pass by up to 1.28$\times$ compared to the baseline, significantly advancing the efficiency of reproducible LLM training. Our code is open-sourced at https://github.com/SJTU-Liquid/deterministic-FA3.
- Abstract(参考訳): 決定論は大規模言語モデル(LLM)訓練において再現性には不可欠であるが、しばしば性能の急激なコストを正確に表す。
FlashAttention-3のような広く使われている注目実装では、決定論的後方通過は非決定論的パスと比較して37.9%のスループット低下を引き起こす。
この性能損失は、計算と勾配-減算フェーズの最適以下のスケジューリングに起因し、ハードウェアの大幅な不使用に繋がる。
この課題に対処するために、DAG(Directed Acyclic Graph)上のスケジューリング問題として決定論的注意の後方通過を定式化し、臨界経路長を最小化するスケジュールを導出する。
この定式化に基づいてDASH(Deterministic Attention Scheduling for High-Throughput)を提案する。
i)Q-Tile Iterationの廃止。Q-Tile Iterationは、パイプラインストールを因果的注意で縮小する逆クエリブロックトラバーサルで、
(II)シフトスケジューリング(Shift Scheduling)は、DAGモデル内で理論的に最適なスケジュールであり、完全なマスクと因果マスクの両方のパイプラインストールを削減する。
NVIDIA H800 GPUに対する実証的な評価は、DASHが決定論的注意力の差を狭めることを示している。
提案手法は, ベースラインに比べて1.28$\times$のスループットを向上し, 再現可能なLCMトレーニングの効率を大幅に向上させる。
私たちのコードはhttps://github.com/SJTU-Liquid/deterministic-FA3.comでオープンソース化されています。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Online Scheduling for LLM Inference with KV Cache Constraints [22.133592174540052]
大規模言語モデル(LLM)推論は、レイテンシとリソース利用を最適化するための効率的なスケジューリングを必要とする集約的なプロセスである。
KVキャッシュのメモリを効果的に管理しながら、推論遅延を最小限に抑える、新しい理論的なスケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-10T23:11:44Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Accelerating Exact Combinatorial Optimization via RL-based
Initialization -- A Case Study in Scheduling [1.3053649021965603]
本研究の目的は、最適化問題に対処する機械学習(ML)を用いた革新的なアプローチを開発することである。
1) 粗粒スケジューラとしての解法, 2) 解緩和, 3) ILPによる正確な解法の3つのステップを含む新しい2段階のRL-to-ILPスケジューリングフレームワークを導入する。
提案フレームワークは, 正確なスケジューリング手法と比較して, 最大128ドルの高速化を実現しつつ, 同一のスケジューリング性能を示す。
論文 参考訳(メタデータ) (2023-08-19T15:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。