論文の概要: SIGMA: An AI-Empowered Training Stack on Early-Life Hardware
- arxiv url: http://arxiv.org/abs/2512.13488v1
- Date: Mon, 15 Dec 2025 16:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.745323
- Title: SIGMA: An AI-Empowered Training Stack on Early-Life Hardware
- Title(参考訳): SIGMA: アーリーライフハードウェアにAIを活用したトレーニングスタック
- Authors: Lei Qu, Lianhai Ren, Peng Cheng, Rui Gao, Ruizhe Wang, Tianyu Chen, Xiao Liu, Xingjian Zhang, Yeyun Gong, Yifan Xiong, Yucheng Ding, Yuting Jiang, Zhenghao Lin, Zhongxin Guo, Ziyue Yang,
- Abstract要約: SIGMAは、初期のAIアクセラレーターにおける大規模トレーニングの信頼性、安定性、効率を改善するために設計されたオープンソースのトレーニングスタックである。
このイニシアチブの中核は、初期のAIアクセラレーターとシステムクラスタであるLUCIA TRAINing PLATFORMである。
- 参考スコア(独自算出の注目度): 35.038827397961974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An increasing variety of AI accelerators is being considered for large-scale training. However, enabling large-scale training on early-life AI accelerators faces three core challenges: frequent system disruptions and undefined failure modes that undermine reliability; numerical errors and training instabilities that threaten correctness and convergence; and the complexity of parallelism optimization combined with unpredictable local noise that degrades efficiency. To address these challenges, SIGMA is an open-source training stack designed to improve the reliability, stability, and efficiency of large-scale distributed training on early-life AI hardware. The core of this initiative is the LUCIA TRAINING PLATFORM (LTP), the system optimized for clusters with early-life AI accelerators. Since its launch in March 2025, LTP has significantly enhanced training reliability and operational productivity. Over the past five months, it has achieved an impressive 94.45% effective cluster accelerator utilization, while also substantially reducing node recycling and job-recovery times. Building on the foundation of LTP, the LUCIA TRAINING FRAMEWORK (LTF) successfully trained SIGMA-MOE, a 200B MoE model, using 2,048 AI accelerators. This effort delivered remarkable stability and efficiency outcomes, achieving 21.08% MFU, state-of-the-art downstream accuracy, and encountering only one stability incident over a 75-day period. Together, these advances establish SIGMA, which not only tackles the critical challenges of large-scale training but also establishes a new benchmark for AI infrastructure and platform innovation, offering a robust, cost-effective alternative to prevailing established accelerator stacks and significantly advancing AI capabilities and scalability. The source code of SIGMA is available at https://github.com/microsoft/LuciaTrainingPlatform.
- Abstract(参考訳): 大規模なトレーニングでは、AIアクセラレータの多様化が検討されている。
しかし、初期のAIアクセラレーターでの大規模なトレーニングを可能にするには、信頼性を損なう頻繁なシステム障害と未定義の障害モード、数値エラーと、正確性と収束を脅かすトレーニング不安定性、並列性最適化の複雑さと効率を低下させる予測不可能なローカルノイズの3つの主要な課題がある。
これらの課題に対処するため、SIGMAは、初期のAIハードウェア上での大規模分散トレーニングの信頼性、安定性、効率を改善するために設計された、オープンソースのトレーニングスタックである。
このイニシアチブの中核であるLUCIA TRAINing PLATFORM(LTP)は、アーリーライフAIアクセラレーターを備えたクラスタ向けに最適化されたシステムである。
2025年3月の打ち上げ以来、LTPは訓練の信頼性と運用の生産性を大幅に向上させてきた。
過去5ヶ月で94.45%の効果的なクラスター加速器利用を達成し、またノードのリサイクルとジョブの回復時間を著しく短縮した。
LTPの基礎の上に構築されたLUCIA TRAINing FRAMEWORK(LTF)は、2,048基のAIアクセラレータを使用して200B MoEモデルであるSIGMA-MOEのトレーニングに成功した。
この試みは、顕著な安定性と効率性を実現し、21.08%のMFU、最先端の下流精度を達成し、75日間に1回の安定性のインシデントに遭遇した。
これらの進歩により、SIGMAは大規模トレーニングの重要な課題に対処するだけでなく、AIインフラストラクチャとプラットフォームイノベーションの新たなベンチマークを確立し、確立したアクセラレータスタックに対する堅牢で費用対効果の高い代替手段を提供し、AI能力とスケーラビリティを大幅に向上させる。
SIGMAのソースコードはhttps://github.com/microsoft/LuciaTrainingPlatformで公開されている。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Introducing LongCat-Flash-Thinking: A Technical Report [116.75498493511026]
LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。
高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。
LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T10:25:48Z) - Robust LLM Training Infrastructure at ByteDance [21.53715636383753]
ByteRobustは、大規模言語モデル(LLM)の堅牢で安定したトレーニングに適した、大規模GPUインフラストラクチャ管理システムである。
LLMトレーニングプロセスの独自性を活用し、定期的に障害を検出して回復するための最優先事項を提供する。
ByteRobustはプロダクションGPUプラットフォームにデプロイされ、9600GPU上で3ヶ月のトレーニングジョブで97%のETTRを達成した。
論文 参考訳(メタデータ) (2025-09-19T15:08:33Z) - Meta-Computing Enhanced Federated Learning in IIoT: Satisfaction-Aware Incentive Scheme via DRL-Based Stackelberg Game [50.6166553799783]
効率的なIIoT操作は、モデル品質とトレーニング遅延の間のトレードオフを必要とする。
本稿では,データサイズ,情報時代(AoI),メタコンピューティングのトレーニング遅延を考慮した満足度関数を設計する。
我々は、スタックルバーグ均衡を学ぶために、深い強化学習アプローチを採用する。
論文 参考訳(メタデータ) (2025-02-10T03:33:36Z) - HEART: Achieving Timely Multi-Model Training for Vehicle-Edge-Cloud-Integrated Hierarchical Federated Learning [30.75025062952915]
AI対応のIoT of Vehicles(IoV)の急速な成長は、効率的な機械学習(ML)ソリューションを求めている。
車両はしばしば複数のMLタスクを同時に実行する必要がある。
本稿では,グローバルトレーニング遅延の最小化を目的とした動的VEC-HFLにおけるマルチモデルトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-17T03:15:03Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。