論文の概要: SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention
- arxiv url: http://arxiv.org/abs/2604.13847v1
- Date: Wed, 15 Apr 2026 13:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.552165
- Title: SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention
- Title(参考訳): SparseBalance:動的スパース注意によるロードベースロングコンテキストトレーニング
- Authors: Hongtao Xu, Jianchao Tan, Yuxuan Hu, Pengju Lu, Hongyu Wang, Pingwei Sun, Yerui Sun, Yuchen Xie, Xunliang Cai, Mingzhen Li, Weile Jia,
- Abstract要約: 本稿では,モデル精度とシステム効率を協調的に最適化するために,スパース性とシーケンスの不均一性を利用するSparseBalanceを提案する。
まず,自由度に固有のトラグラーを除去するために,双方向のスペーサ性調整を利用するワークロード対応動的スペーサ性チューニングを提案する。
第二に、粗粒度スペーサ性チューニングを実現するためのスパーティアウェア戦略を提案する。これは、LongBenchベンチマークでは、長いコンテキスト能力を0.46%改善しつつ、スパースを最大1.33$times$ end-to-endのスピードアップに活用する。
- 参考スコア(独自算出の注目度): 19.076502375242352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While sparse attention mitigates the computational bottleneck of long-context LLM training, its distributed training process exhibits extreme heterogeneity in both \textit{1)} sequence length and \textit{2)} sparsity sensitivity, leading to a severe imbalance problem and sub-optimal model accuracy. Existing algorithms and training frameworks typically focus on single issue, failing to systematically co-optimize these two problems. Therefore, we propose SparseBalance, a novel algorithm-system co-design framework, which exploits the sparsity and sequence heterogeneity to optimize model accuracy and system efficiency jointly. First, we propose workload-aware dynamic sparsity tuning, which employs a bidirectional sparsity adjustment to eliminate stragglers and exploit inherent bubbles for free accuracy. Second, we propose a sparsity-aware batching strategy to achieve coarse-grained balance, which complements dynamic sparsity tuning. Experimental results demonstrate that SparseBalance achieves up to a 1.33$\times$ end-to-end speedup while still improving the long-context capability by 0.46\% on the LongBench benchmark.
- Abstract(参考訳): スパースアテンションは長期LLMトレーニングの計算ボトルネックを緩和するが、その分散トレーニングプロセスは \textit{1)} 配列長と \textit{2)} 間隔感度の両方において極端な不均一性を示し、深刻な不均衡問題と準最適モデル精度をもたらす。
既存のアルゴリズムとトレーニングフレームワークは一般的に単一問題に重点を置いており、これらの2つの問題を体系的に最適化することができない。
そこで我々はSparseBalanceを提案する。SparseBalanceはモデル精度とシステム効率を協調的に最適化するために、スパーシ性とシーケンスの不均一性を利用する新しいアルゴリズム・システム協調設計フレームワークである。
まず,スラグラーを除去し,固有気泡を自由な精度で活用するために,双方向のスラシティ調整を利用するワークロード対応動的スラシティチューニングを提案する。
第2に,動的疎性チューニングを補完する粗粒度バランスを実現するために,疎性を考慮したバッチ方式を提案する。
実験の結果、SparseBalanceは最大1.33$\times$ end-to-endのスピードアップを実現し、LongBenchベンチマークでは0.46\%改善した。
関連論文リスト
- Neural Network Pruning via QUBO Optimization [0.08796261172196741]
グローバル最適化による推定の重要性を橋渡しするハイブリッドQUBOフレームワークを提案する。
本定式化では,2次項におけるデータ駆動的類似性を活用しながら,勾配認識感度指標を線形項に統合する。
SIDD画像復調データセットの実験では、提案されたハイブリッドQUBOは、グリーディ・テイラープルーニングと従来のL1ベースのQUBOの両方で著しく優れていた。
論文 参考訳(メタデータ) (2026-04-07T13:16:40Z) - Taming the Instability: A Robust Second-Order Optimizer for Federated Learning over Non-IID Data [77.19117648492104]
We present Federated Robust Curvature Optimization (FedRCO), a novel second-order optimization framework designed to improve convergence speed and reduce communication cost。
FedRCOは、効率的な近似曲率と証明可能な安定性メカニズムを統合することで、これらの課題に対処する。
我々は,FedRCOが,最先端の1次法と2次法のどちらよりも高い精度と高速な収束を実現しつつ,多種多様な非IIDシナリオに対して優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2026-03-30T11:37:46Z) - Sparse Training of Neural Networks based on Multilevel Mirror Descent [0.688204255655161]
本稿では,線形化されたブレグマン反復/ミラー降下に基づく動的スパーストレーニングアルゴリズムを提案する。
実験により,我々のアルゴリズムは標準ベンチマーク上で高度にスパースで正確なモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2026-02-03T13:51:45Z) - Trajectory Consistency for One-Step Generation on Euler Mean Flows [24.038760671907024]
本研究では,フローベース生成フレームワークであるemphEuler Mean Flows (EMF)を提案する。
EMFは最小サンプリングコストで長距離軌道の整合性を実現する。
論文 参考訳(メタデータ) (2026-01-31T04:32:32Z) - ROOT: Robust Orthogonalized Optimizer for Neural Network Training [47.05662448082334]
大規模言語モデル(LLM)は、特にモデルのスケーリングがインプレクションやトレーニングの不安定性に対する感受性を悪化させるため、依然として重要な課題である。
我々は,特定の行列サイズに合わせた反復によるロバスト性を高める次元ロバスト化手法を開発した。
第2に,有意な方向を保ちながら外周雑音を抑制する最適化ロバスト化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:48:05Z) - Seer Self-Consistency: Advance Budget Estimation for Adaptive Test-Time Scaling [55.026048429595384]
テストタイムスケーリングは、Large Language Models (LLMs) の推論性能を向上させるが、かなりの計算コストを発生させる。
トークン効率とレイテンシを同時に向上する動的自己整合性フレームワークであるSeerSCを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:57:43Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [70.38810219913593]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Mist: Efficient Distributed Training of Large Language Models via Memory-Parallelism Co-Optimization [11.223375172715722]
本稿では,メモリ,オーバーラップ,不均衡を考慮した自動分散トレーニングシステムであるMistを提案する。
Mistは、最先端手動システムMegatron-LMや最先端自動システムAcesoと比較して平均1.28$times$(最大1.73$times$)の高速化を実現している。
論文 参考訳(メタデータ) (2025-03-24T18:21:08Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。