論文の概要: MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training
- arxiv url: http://arxiv.org/abs/2510.18830v1
- Date: Tue, 21 Oct 2025 17:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.030692
- Title: MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training
- Title(参考訳): MTraining: 効率的な超長期学習のための分散動的スパース注意
- Authors: Wenxuan Li, Chengruidong Zhang, Huiqiang Jiang, Yucheng Li, Yuqing Yang, Lili Qiu,
- Abstract要約: MTrainingは、超長期のコンテキストを持つ大規模言語モデルをトレーニングするための分散方法論である。
MTrainingは動的スパーストレーニングパターン、バランスの取れたスパースリングアテンション、階層的なスパースリングアテンションを統合している。
MTrainingは、モデルの精度を維持しながら、最大で6倍のトレーニングスループットを達成する。
- 参考スコア(独自算出の注目度): 23.925430484357975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The adoption of long context windows has become a standard feature in Large Language Models (LLMs), as extended contexts significantly enhance their capacity for complex reasoning and broaden their applicability across diverse scenarios. Dynamic sparse attention is a promising approach for reducing the computational cost of long-context. However, efficiently training LLMs with dynamic sparse attention on ultra-long contexts-especially in distributed settings-remains a significant challenge, due in large part to worker- and step-level imbalance. This paper introduces MTraining, a novel distributed methodology leveraging dynamic sparse attention to enable efficient training for LLMs with ultra-long contexts. Specifically, MTraining integrates three key components: a dynamic sparse training pattern, balanced sparse ring attention, and hierarchical sparse ring attention. These components are designed to synergistically address the computational imbalance and communication overheads inherent in dynamic sparse attention mechanisms during the training of models with extensive context lengths. We demonstrate the efficacy of MTraining by training Qwen2.5-3B, successfully expanding its context window from 32K to 512K tokens on a cluster of 32 A100 GPUs. Our evaluations on a comprehensive suite of downstream tasks, including RULER, PG-19, InfiniteBench, and Needle In A Haystack, reveal that MTraining achieves up to a 6x higher training throughput while preserving model accuracy. Our code is available at https://github.com/microsoft/MInference/tree/main/MTraining.
- Abstract(参考訳): 長期のコンテキストウィンドウの採用は、拡張されたコンテキストによって複雑な推論の能力が大幅に向上し、さまざまなシナリオにまたがって適用可能性を広げるなど、Large Language Models(LLMs)の標準機能となっている。
ダイナミックスパースアテンションは、長期コンテキストの計算コストを削減するための有望なアプローチである。
しかし、特に分散環境では、作業者レベルの不均衡やステップレベルの不均衡のため、超長期のコンテキストに動的に注意を払ってLLMを効率的に訓練することは大きな課題である。
MTraining(MTraining)は,動的スパースアテンションを利用して,超長期環境下でのLLMの効率的なトレーニングを可能にする新しい分散手法である。
具体的には、MTrainingは、ダイナミックスパーストレーニングパターン、バランスの取れたスパースリングアテンション、階層的なスパースリングアテンションの3つの重要なコンポーネントを統合している。
これらのコンポーネントは、広い文脈長を持つモデルのトレーニング中に、動的スパースアテンション機構に固有の計算不均衡と通信オーバーヘッドに相乗的に対処するように設計されている。
Qwen2.5-3B のトレーニングによる MTraining の有効性を実証し,32 A100 GPU のクラスタ上でコンテキストウィンドウを 32K から 512K に拡張した。
RULER、PG-19、InfiniteBench、Needle In A Haystackを含む下流タスクの総合的なスイートに対する評価では、MTrainingはモデルの精度を保ちながら最大6倍のトレーニングスループットを達成できることがわかった。
私たちのコードはhttps://github.com/microsoft/MInference/tree/main/MTraining.comで公開されています。
関連論文リスト
- Predicting Task Performance with Context-aware Scaling Laws [56.6850444554434]
本稿では、トレーニング計算と提供されたコンテキストの関数として、下流のパフォーマンスを協調的にモデル化する、単純かつ解釈可能なフレームワークを提案する。
我々は,Llama-2-7BおよびLlama-2-13Bの拡張コンテキスト変種について,観測された下流性能に適合させることで,我々の枠組みを実証的に検証した。
以上の結果から,我々のフレームワークは,配信中のダウンストリーム性能を正確にモデル化し,トレーニング計算において3桁の規模で一般化し,コンテキストの増大とともに性能を確実に外挿することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:35:18Z) - Trainable Dynamic Mask Sparse Attention [11.506985057671015]
トレーニング可能なダイナミックマスクスパースアテンション機構を導入し、位置認識とコンテンツ認識の両方のアプローチの利点を融合する手法を提案する。
導入したダイナミックマスクとスパースウェイトは勾配を阻害せず、エンドツーエンドのトレーニングを支援することを実証する。
論文 参考訳(メタデータ) (2025-08-04T07:05:15Z) - DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。
まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。
その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - Towards Structured Dynamic Sparse Pre-Training of BERT [4.567122178196833]
BERT言語モデリングタスクのための、単純で動的で、常にスパースな事前学習手法を開発し、研究する。
粗い粒度のブロック間隔を使用する場合、トレーニングはFLOP効率を保ち、現代のハードウェアアクセラレーター上での効率的な実行を特に有望であることを示す。
論文 参考訳(メタデータ) (2021-08-13T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。