論文の概要: FlashRecovery: Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs
- arxiv url: http://arxiv.org/abs/2509.03047v1
- Date: Wed, 03 Sep 2025 06:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.431894
- Title: FlashRecovery: Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs
- Title(参考訳): FlashRecovery: LLMの大規模トレーニングにおける障害からの高速かつ低コスト回復
- Authors: Haijun Zhang, Jinxiang Wang, Zhenhua Yu, Yanyong Zhang, Xuejie Ji, Kaining Mao, Jun Zhang, Yaqing Zhang, Ting Wu, Fei Jie, Xiemin Huang, Zhifang Cai, Junhua Cheng, Shuwei Wang, Wei Li, Xiaoming Bao, Hua Xu, Shixiong Zhao, Jun Li, Hongwei Sun, Ziyang Zhang, Yi Xiong, Chunsheng Li,
- Abstract要約: 大規模言語モデル(LLM)は、その高度な能力のために様々な分野に大きな影響を与えている。
これらのモデルを前例のない規模でトレーニングするには、広範なAIアクセラレータクラスタと高度な並列処理戦略が必要である。
3つのコアモジュールからなる高速で低コストな障害復旧システムであるFlashRecoveryを提案する。
- 参考スコア(独自算出の注目度): 39.48814854396767
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have made a profound impact across various fields due to their advanced capabilities. However, training these models at unprecedented scales requires extensive AI accelerator clusters and sophisticated parallelism strategies, which pose significant challenges in maintaining system reliability over prolonged training periods. A major concern is the substantial loss of training time caused by inevitable hardware and software failures. To address these challenges, we present FlashRecovery, a fast and low-cost failure recovery system comprising three core modules: (1) Active and real-time failure detection. This module performs continuous training state monitoring, enabling immediate identification of hardware and software failures within seconds, thus ensuring rapid incident response; (2) Scale-independent task restart. By employing different recovery strategies for normal and faulty nodes, combined with an optimized communication group reconstruction protocol, our approach ensures that the recovery time remains nearly constant, regardless of cluster scale; (3) Checkpoint-free recovery within one step. Our novel recovery mechanism enables single-step restoration, completely eliminating dependence on traditional checkpointing methods and their associated overhead. Collectively, these innovations enable FlashRecovery to achieve optimal Recovery Time Objective (RTO) and Recovery Point Objective (RPO), substantially improving the reliability and efficiency of long-duration LLM training. Experimental results demonstrate that FlashRecovery system can achieve training restoration on training cluster with 4, 800 devices in 150 seconds. We also verify that the time required for failure recovery is nearly consistent for different scales of training tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その高度な能力のために様々な分野に大きな影響を与えている。
しかしながら、これらのモデルを前例のない規模でトレーニングするには、広範なAIアクセラレータクラスタと高度な並列処理戦略が必要である。
大きな懸念は、必然的なハードウェアとソフトウェア障害によるトレーニング時間の大幅な減少である。
これらの課題に対処するため,(1)アクティブおよびリアルタイム障害検出という3つのコアモジュールからなる高速かつ低コストな障害復旧システムであるFlashRecoveryを提案する。
このモジュールは、連続的なトレーニング状態監視を実行し、ハードウェアとソフトウェアの障害を数秒で即座に識別し、迅速なインシデント応答を保証します。
正常ノードと障害ノードの異なる回復戦略と、最適化された通信グループ再構築プロトコルを組み合わせることで、クラスタスケールに関わらず、回復時間がほぼ一定であることを保証する。
新たな回復機構により,従来のチェックポイント法とその関連オーバーヘッドへの依存を完全に排除し,一段階の回復を可能にする。
これらのイノベーションにより、FlashRecoveryは、RTO(Recovery Time Objective)とRPO(Recovery Point Objective)を最適化し、長期LLMトレーニングの信頼性と効率を大幅に向上させることができる。
実験の結果,FlashRecoveryシステムは,4,800台のデバイスを150秒でトレーニングクラスタ上でトレーニング復元できることがわかった。
また、障害復旧に要する時間は、異なる規模のトレーニングタスクに対してほぼ一貫したものであることも確認します。
関連論文リスト
- Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。
モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。
この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Fast-FedUL: A Training-Free Federated Unlearning with Provable Skew Resilience [26.647028483763137]
我々は、Fast-FedULを紹介した。Fast-FedULは、フェデレートラーニング(FL)のための調整済みの未学習手法である。
訓練されたモデルからターゲットクライアントの影響を体系的に除去するアルゴリズムを開発した。
実験結果から、Fast-FedULはターゲットクライアントのほとんどすべてのトレースを効果的に削除し、未ターゲットクライアントの知識を維持していることがわかった。
論文 参考訳(メタデータ) (2024-05-28T10:51:38Z) - AdaIR: Exploiting Underlying Similarities of Image Restoration Tasks with Adapters [57.62742271140852]
AdaIRは、パフォーマンスを犠牲にすることなく、低コストで効率的なトレーニングを可能にする新しいフレームワークである。
AdaIRは軽量でタスク固有のモジュールのトレーニングのみを必要とし、より効率的なストレージとトレーニング体制を確保する。
論文 参考訳(メタデータ) (2024-04-17T15:31:06Z) - Recover: A Neuro-Symbolic Framework for Failure Detection and Recovery [2.0554045007430672]
本稿では,オンライン障害識別と回復のためのニューロシンボリック・フレームワークであるRecoverを紹介する。
論理ルールとLLMベースのプランナを統合することで、Recoverはシンボル情報を利用してLLMの回復計画を生成する能力を高める。
論文 参考訳(メタデータ) (2024-03-31T17:54:22Z) - Unicron: Economizing Self-Healing LLM Training at Scale [43.59768821780751]
大規模な言語モデルトレーニングにおいて,効率的な自己修復を行うためのワークロードマネージャUnicronを紹介する。
Unicronはクラスタ内の複数の並行タスクにおける障害関連コストを最小限にする。
これは最先端の手法よりも訓練効率が1.9倍向上したことを示している。
論文 参考訳(メタデータ) (2023-12-30T04:06:16Z) - TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。
超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:06:52Z) - Accelerating Self-Supervised Learning via Efficient Training Strategies [98.26556609110992]
自己監督型ディープネットワークのトレーニング時間は、教師付きディープネットワークよりも桁違いに大きい。
これらの課題に乗じて,近年の自己指導手法の訓練時間を短縮する方法について検討する。
論文 参考訳(メタデータ) (2022-12-11T21:49:39Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。