論文の概要: TrainMover: An Interruption-Resilient and Reliable ML Training Runtime
- arxiv url: http://arxiv.org/abs/2412.12636v2
- Date: Sat, 26 Apr 2025 13:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.05431
- Title: TrainMover: An Interruption-Resilient and Reliable ML Training Runtime
- Title(参考訳): TrainMover: 中断耐性と信頼性を備えたMLトレーニングランタイム
- Authors: ChonLam Lao, Minlan Yu, Aditya Akella, Jiamin Cao, Yu Guan, Pengcheng Zhang, Zhilong Zheng, Yichi Xu, Ennan Zhai, Dennis Cai, Jiaqi Gao,
- Abstract要約: TrainMoverは、スタンバイマシンを活用して、最小のダウンタイムとメモリオーバーヘッドゼロで割り込みを処理する、レジリエントなランタイムである。
以上の結果から,TrainMoverは移動中の全モデルに対して連続的に第2レベルのダウンタイムを実現し,周期的10分間のリバランスにおいて,99%のトレーニング効率を維持した。
- 参考スコア(独自算出の注目度): 16.38937239546935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale ML training jobs are frequently interrupted by hardware and software anomalies, failures, and management events. Existing solutions like checkpointing or runtime reconfiguration suffer from long downtimes, degraded performance, or undesired changes to training strategies. We present TrainMover, a resilient runtime that leverages standby machines to handle interruptions with minimal downtime and zero memory overhead. To achieve these goals, TrainMover introduces two key techniques: two-phase, delta-based communication group setups and communication-free sandboxed shadow iterations. Our evaluation shows that TrainMover consistently achieves second-level downtime across all evaluated models during migration, maintaining 99\% training efficiency during periodic 10-minute rebalancing. We also demonstrate the effectiveness of TrainMover in handling various interruptions.
- Abstract(参考訳): 大規模なMLトレーニングジョブは、ハードウェアやソフトウェアの異常、障害、管理イベントによって頻繁に中断される。
チェックポイントやランタイム再構成といった既存のソリューションは、長時間のダウンタイム、パフォーマンスの低下、あるいはトレーニング戦略の望ましくない変更に悩まされている。
TrainMoverは、スタンバイマシンを活用して、最小のダウンタイムとメモリオーバーヘッドゼロで割り込みを処理する、レジリエントなランタイムである。
これらの目標を達成するためにTrainMoverでは,2フェーズのデルタベースの通信グループセットアップと,通信不要のサンドボックスシャドウイテレーションという,2つの重要なテクニックを紹介している。
以上の結果から,TrainMoverは移動中の全評価モデルに対して,周期的10分間の再バランス時のトレーニング効率を99 %維持し,第2レベルのダウンタイムを継続的に達成していることがわかった。
また,様々な割り込み処理におけるTrainMoverの有効性を示す。
関連論文リスト
- Alchemist: Towards the Design of Efficient Online Continual Learning System [15.224901317189728]
我々はAlchemistを提案し、私たちの知る限り、トレーニングスループットを向上させるためにサービス活性化を効率的に再利用する最初のオンライン連続学習システムを提案する。
Alchemyはトレーニングスループットを最大1.72倍に向上し、トレーニング中に最大47%のメモリ使用量を削減し、最大2倍のトレーニングトークンをサポートする。
論文 参考訳(メタデータ) (2025-03-03T00:14:34Z) - Exploring the Benefit of Activation Sparsity in Pre-training [117.25661020250658]
プレトレーニング中に活性化特性がどう変化するかを検討した。
本稿では,Sparse-Dense Learning (SSD)を提案する。
SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
論文 参考訳(メタデータ) (2024-10-04T13:53:33Z) - ProTrain: Efficient LLM Training via Memory-Aware Techniques [18.30799115938978]
本稿では,メモリ,計算,IOの調整によってメモリ使用量と性能のバランスをとる新しいトレーニングシステムであるProTrainを提案する。
ProTrainは、SOTAのトレーニングシステムと比較して、トレーニングのスループットを1.43$times$から2.71$timesに改善する。
論文 参考訳(メタデータ) (2024-06-12T15:40:06Z) - Unicron: Economizing Self-Healing LLM Training at Scale [43.59768821780751]
大規模な言語モデルトレーニングにおいて,効率的な自己修復を行うためのワークロードマネージャUnicronを紹介する。
Unicronはクラスタ内の複数の並行タスクにおける障害関連コストを最小限にする。
これは最先端の手法よりも訓練効率が1.9倍向上したことを示している。
論文 参考訳(メタデータ) (2023-12-30T04:06:16Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。
超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:06:52Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える
我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-07T08:05:13Z) - The Right to be Forgotten in Federated Learning: An Efficient
Realization with Rapid Retraining [22.16510303054159]
訓練されたFLモデルからデータサンプルを完全に消去する高速再学習手法を提案する。
我々の形式的収束と複雑性解析は、我々の設計がモデルユーティリティを高い効率で維持できることを示した。
論文 参考訳(メタデータ) (2022-03-14T17:22:40Z) - Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。
コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。
提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-11T08:05:11Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - How Important is the Train-Validation Split in Meta-Learning? [155.5088631672781]
メタラーニングにおける一般的な実践は、前者がデータの1つの分割に対してタスクに適応し、その結果の予測器が別の分割に対して評価される列車バリデーション分割(emphtrain-val method)を実行することである。
有病率にもかかわらず、列車の改札の重要性は理論上も実際上もよく理解されていない。
そこで本研究では,実際のメタ学習タスクとシミュレーションの両方において,トレイン・トレイン法がトレイン・ヴァル法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T16:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。