論文の概要: All is Not Lost: LLM Recovery without Checkpoints
- arxiv url: http://arxiv.org/abs/2506.15461v1
- Date: Wed, 18 Jun 2025 13:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.678658
- Title: All is Not Lost: LLM Recovery without Checkpoints
- Title(参考訳): すべてが失われた:チェックポイントなしでのLLMリカバリ
- Authors: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen,
- Abstract要約: CheckFreeは、失敗するステージを最も近いステージの重み付き平均で置き換える効率的なリカバリ手法である。
CheckFreeとCheckFree+は、ウォールクロック時間の収束率でチェックポイントと冗長な計算を12%以上上回った。
- 参考スコア(独自算出の注目度): 0.1638581561083717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training LLMs on decentralized and wimpy computation nodes, e.g., multiple on-spot instances, lowers the training cost and enables model democratization. The inevitable challenge here is the churn of nodes due to failures and the operator's scheduling policies, leading to losing a stage - a part of the model. The conventional approaches to recover from failures are to either use checkpointing, where periodically a copy of the entire model is sent to an additional storage, or redundant computation. These approaches yield significant communication and/or computation overhead even in non-failure cases and scale poorly in settings with large models. In this paper, we propose, CheckFree, an efficient recovery method where a failing stage is substituted by a weighted average of the closest neighboring stages. In contrast to the state of the art, CheckFree requires no additional computation or storage. However, because of the nature of averaging neighbouring stages, it can only recover failures of intermediate stages. We further extend our method to CheckFree+ with out-of-order pipeline execution to tolerate crashes of the first and last stages. Thanks to out-of-order pipelining, behaviour of those stages is mimicked by their neighboring ones, which allows CheckFree+ to recover them by simply copying the weights from the immediate neighbour. To be able to recover the (de)embedding layers, CheckFree+ copies those layers to the neighboring stages, which requires relatively small storage overhead. We extensively evaluate our method on LLaMa models of model sizes from 124M to 1.5B with varying failure frequencies. In the case of low and medium failure rates (5-10%), CheckFree and CheckFree+ outperform both checkpointing and redundant computation in terms of convergence in wall-clock time by over 12%. Both of our proposals can be run via our code available at: https://github.com/gensyn-ai/CheckFree.
- Abstract(参考訳): 分散化およびウイムピーな計算ノード(例えば、複数のオンスポットインスタンス)でのLLMのトレーニングは、トレーニングコストを削減し、モデルの民主化を可能にする。
ここで必然的な課題は、障害とオペレータのスケジューリングポリシによるノードの混乱であり、ステージ — モデルの一部 — を失うことになる。
失敗から回復するための従来のアプローチは、定期的にモデルのコピーが追加のストレージに送信されるチェックポイントを使用するか、冗長な計算を使用する。
これらのアプローチは、障害のないケースでも大きな通信および/または計算オーバーヘッドをもたらし、大規模なモデルでは設定が不十分である。
本稿では,最も近いステージの重み付き平均値でフェールステージを置換する効率的なリカバリ手法であるCheckFreeを提案する。
最先端とは対照的に、CheckFreeは追加の計算やストレージを必要としない。
しかし、平均的な隣接ステージの性質のため、中間ステージの故障を回復するしかなかった。
私たちは、最初のステージと最後のステージのクラッシュを許容するために、アウトオブオーダのパイプライン実行でCheckFree+にメソッドを拡張します。
アウト・オブ・オーダーのパイプライニングによって、これらのステージの動作は隣のステージによって模倣されるため、CheckFree+はすぐに隣のステージから重みをコピーするだけでリカバリすることができる。
埋め込みレイヤを復元するためには、CheckFree+はそのレイヤを隣のステージにコピーする。
モデルサイズを 124M から 1.5B まで変化頻度の異なる LLaMa モデルについて検討した。
低障害率(5-10%)と中障害率(10%)の場合、チェックフリーとチェックフリー+は、チェックポイントと冗長な計算の両方でウォールクロック時間の収束率を12%以上上回っている。
どちらの提案も、 https://github.com/gensyn-ai/CheckFree.comで利用可能なコードで実行できます。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - ZeroFlow: Overcoming Catastrophic Forgetting is Easier than You Think [22.333776599402754]
我々はZeroFlowを紹介した。ZeroFlowはグラデーションのない最適化アルゴリズムを設計した最初のベンチマークである。
以上の結果から,フォワードパスだけでは,忘れを軽減できる可能性が示唆された。
本稿では,フォワードパスのみを用いて,抵抗の忘れ方を改善する新しい拡張を提案する。
論文 参考訳(メタデータ) (2025-01-02T04:10:17Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models [3.3484462092188005]
モデルと状態シャードを構成するテンソルが、長期間にわたって不変であるという事実を生かして、遅延非同期マルチレベルアプローチを導入する。
その結果、48$times$より高速なチェックポイントと2.2$times$より高速なエンドツーエンドトレーニングを実現した。
論文 参考訳(メタデータ) (2024-06-15T18:30:40Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Unsupervised 3D Human Mesh Recovery from Noisy Point Clouds [30.401088478228235]
ノイズの多い点雲から人体形状やポーズを復元するための教師なしのアプローチを提案する。
私たちのネットワークは、教師付きデータでネットワークをウォームアップする必要がないように、ゼロからトレーニングされています。
論文 参考訳(メタデータ) (2021-07-15T18:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。