論文の概要: Robust LLM Training Infrastructure at ByteDance
- arxiv url: http://arxiv.org/abs/2509.16293v2
- Date: Tue, 30 Sep 2025 15:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.116529
- Title: Robust LLM Training Infrastructure at ByteDance
- Title(参考訳): ByteDanceにおけるロバストLLMトレーニングインフラストラクチャ
- Authors: Borui Wan, Gaohong Liu, Zuquan Song, Jun Wang, Yun Zhang, Guangming Sheng, Shuguang Wang, Houmin Wei, Chenyuan Wang, Weiqiang Lou, Xi Yang, Mofan Zhang, Kaihua Jiang, Cheng Ren, Xiaoyun Zhi, Menghan Yu, Zhe Nan, Zhuolin Zheng, Baoquan Zhong, Qinlong Wang, Huan Yu, Jinxin Chi, Wang Zhang, Yuhan Li, Zixian Du, Sida Zhao, Yongqiang Zhang, Jingzhe Tang, Zherui Liu, Chuan Wu, Yanghua Peng, Haibin Lin, Wencong Xiao, Xin Liu, Liang Xiang,
- Abstract要約: ByteRobustは、大規模言語モデルの堅牢で安定したトレーニングに適した、大規模なGPUインフラストラクチャ管理システムである。
LLMトレーニングプロセスの独自性を活用し、定期的に障害を検出して回復するための最優先事項を提供します。
- 参考スコア(独自算出の注目度): 21.53715636383753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training scale of large language models (LLMs) has reached tens of thousands of GPUs and is still continuously expanding, enabling faster learning of larger models. Accompanying the expansion of the resource scale is the prevalence of failures (CUDA error, NaN values, job hang, etc.), which poses significant challenges to training stability. Any large-scale LLM training infrastructure should strive for minimal training interruption, efficient fault diagnosis, and effective failure tolerance to enable highly efficient continuous training. This paper presents ByteRobust, a large-scale GPU infrastructure management system tailored for robust and stable training of LLMs. It exploits the uniqueness of LLM training process and gives top priorities to detecting and recovering failures in a routine manner. Leveraging parallelisms and characteristics of LLM training, ByteRobust enables high-capacity fault tolerance, prompt fault demarcation, and localization with an effective data-driven approach, comprehensively ensuring continuous and efficient training of LLM tasks. ByteRobust is deployed on a production GPU platform with over 200,000 GPUs and achieves 97% ETTR for a three-month training job on 9,600 GPUs.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングスケールは、数万のGPUに到達し、現在も継続的に拡張されており、より大きなモデルの高速な学習を可能にしている。
リソーススケールの拡大に伴う障害(CUDAエラー、NaN値、ジョブハングなど)の頻度は、安定性のトレーニングに重大な課題をもたらします。
大規模なLLMトレーニングインフラストラクチャは、トレーニングの中断を最小限に抑え、効率的な障害診断と、高効率な継続的トレーニングを可能にする効果的な障害耐性を実現するために努力する必要がある。
本稿では,LLMの堅牢かつ安定したトレーニングに適した大規模GPU基盤管理システムByteRobustを提案する。
LLMトレーニングプロセスの独自性を活用し、定期的に障害を検出して回復するための最優先事項を提供します。
ByteRobustは、LLMトレーニングの並列性と特性を活用することで、LLMタスクの連続的かつ効率的なトレーニングを包括的に保証し、高容量なフォールトトレランス、高速なフォールトデマレーション、効果的なデータ駆動アプローチによるローカライゼーションを実現している。
ByteRobustは、20万以上のGPUを備えたプロダクションGPUプラットフォームにデプロイされ、9600GPU上で3ヶ月のトレーニングジョブで97%のETTRを達成した。
関連論文リスト
- LLMPrism: Black-box Performance Diagnosis for Production LLM Training Platforms [31.576014566773697]
大規模言語モデル (LLM) は様々な分野で革命的な変化をもたらした。
本稿では,ジョブのトレーニングスケジュールを再構築するための基盤となるネットワークフローデータの利用を提案する。
LLMトレーニングプラットフォームのための最初のブラックボックス性能診断システムであるLSMPrismを設計する。
論文 参考訳(メタデータ) (2025-05-01T06:38:52Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - MegaScale: Scaling Large Language Model Training to More Than 10,000
GPUs [30.034205048718885]
この規模での大規模言語モデル(LLM)のトレーニングは、効率性と安定性のトレーニングに前例のない課題をもたらします。
モデルブロック全体にわたってアルゴリズムとシステムコンポーネントを共同設計するフルスタックアプローチを採用しています。
システムコンポーネントやイベントをスタックの奥深くで監視し,根本原因を特定し,耐障害性を実現し,トラグラーを緩和する効果的な手法を考案する。
論文 参考訳(メタデータ) (2024-02-23T22:10:59Z) - TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。
超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:06:52Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。