論文の概要: TrainMover: Efficient ML Training Live Migration with No Memory Overhead
- arxiv url: http://arxiv.org/abs/2412.12636v1
- Date: Tue, 17 Dec 2024 07:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:04.152277
- Title: TrainMover: Efficient ML Training Live Migration with No Memory Overhead
- Title(参考訳): TrainMover: メモリオーバーヘッドのない効率的なMLトレーニングライブマイグレーション
- Authors: ChonLam Lao, Minlan Yu, Aditya Akella, Jiamin Cao, Yu Guan, Pengcheng Zhang, Zhilong Zheng, Yichi Xu, Ennan Zhai, Dennis Cai, Jiaqi Gao,
- Abstract要約: 機械学習トレーニング中の機械置換を可能にするライブマイグレーションシステムであるTrainMoverを提案する。
評価の結果,TrainMoverは全ベースラインの16倍のダウンタイムを達成できた。
- 参考スコア(独自算出の注目度): 16.38937239546935
- License:
- Abstract: Machine learning training has emerged as one of the most prominent workloads in modern data centers. These training jobs are large-scale, long-lasting, and tightly coupled, and are often disrupted by various events in the cluster such as failures, maintenance, and job scheduling. To handle these events, we rely on cold migration, where we first checkpoint the entire cluster, replace the related machines, and then restart the training. This approach leads to disruptions to the training jobs, resulting in significant downtime. In this paper, we present TrainMover, a live migration system that enables machine replacement during machine learning training. TrainMover minimizes downtime by leveraging member replacement of collective communication groups and sandbox lazy initialization. Our evaluation demonstrates that TrainMover achieves 16x less downtime compared to all baselines, effectively handling data center events like straggler rebalancing, maintenance, and unexpected failures.
- Abstract(参考訳): 機械学習トレーニングは、現代のデータセンターでもっとも顕著なワークロードの1つとして登場した。
これらのトレーニングジョブは大規模で長期的、密結合であり、障害やメンテナンス、ジョブスケジューリングといったクラスタ内のさまざまなイベントによって混乱することが多い。
これらのイベントを処理するには、まずクラスタ全体をチェックポイントし、関連するマシンを置き換えて、トレーニングを再開する、コールドマイグレーションに頼っています。
このアプローチはトレーニングジョブを混乱させ、大幅なダウンタイムをもたらします。
本稿では,機械学習トレーニング中の機械置換を可能にするライブマイグレーションシステムTrainMoverを提案する。
TrainMoverは、グループ通信グループのメンバ置換とサンドボックス遅延初期化を活用することで、ダウンタイムを最小限にする。
評価の結果,TrainMoverは全ベースラインの16倍のダウンタイムを実現し,トラグルリバランシングやメンテナンス,予期せぬ障害といったデータセンタイベントを効果的に処理できることがわかった。
関連論文リスト
- Exploring the Benefit of Activation Sparsity in Pre-training [117.25661020250658]
プレトレーニング中に活性化特性がどう変化するかを検討した。
本稿では,Sparse-Dense Learning (SSD)を提案する。
SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
論文 参考訳(メタデータ) (2024-10-04T13:53:33Z) - Blockchain-enabled Trustworthy Federated Unlearning [50.01101423318312]
フェデレートアンラーニング(Federated Unlearning)は、分散クライアントのデータオーナシップを保護するための、有望なパラダイムである。
既存の作業では、分散クライアントからの履歴モデルパラメータを保持するために、中央サーバが必要である。
本稿では,ブロックチェーンによる信頼性の高いフェデレーションアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T07:04:48Z) - Unicron: Economizing Self-Healing LLM Training at Scale [43.59768821780751]
大規模な言語モデルトレーニングにおいて,効率的な自己修復を行うためのワークロードマネージャUnicronを紹介する。
Unicronはクラスタ内の複数の並行タスクにおける障害関連コストを最小限にする。
これは最先端の手法よりも訓練効率が1.9倍向上したことを示している。
論文 参考訳(メタデータ) (2023-12-30T04:06:16Z) - TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。
超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:06:52Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - The Right to be Forgotten in Federated Learning: An Efficient
Realization with Rapid Retraining [22.16510303054159]
訓練されたFLモデルからデータサンプルを完全に消去する高速再学習手法を提案する。
我々の形式的収束と複雑性解析は、我々の設計がモデルユーティリティを高い効率で維持できることを示した。
論文 参考訳(メタデータ) (2022-03-14T17:22:40Z) - Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。
コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。
提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-11T08:05:11Z) - Omni-Training for Data-Efficient Deep Learning [80.28715182095975]
近年の進歩により、適切に訓練されたモデルが重要な特性であるトランスファービリティを持つことが明らかとなった。
事前訓練とメタトレーニングの厳密な組み合わせは、どちらの種類のトランスファー可能性も達成できない。
このことが提案されているOmni-Trainingフレームワークを,データ効率のよいディープラーニングに動機付けている。
論文 参考訳(メタデータ) (2021-10-14T16:30:36Z) - How Important is the Train-Validation Split in Meta-Learning? [155.5088631672781]
メタラーニングにおける一般的な実践は、前者がデータの1つの分割に対してタスクに適応し、その結果の予測器が別の分割に対して評価される列車バリデーション分割(emphtrain-val method)を実行することである。
有病率にもかかわらず、列車の改札の重要性は理論上も実際上もよく理解されていない。
そこで本研究では,実際のメタ学習タスクとシミュレーションの両方において,トレイン・トレイン法がトレイン・ヴァル法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T16:48:42Z) - Continual Model-Based Reinforcement Learning with Hypernetworks [24.86684067407964]
本稿では,タスク条件付きハイパーネットを用いたタスクのシーケンスにおいて,遭遇するダイナミクスを継続的に学習する手法を提案する。
まず、従来のタスクからトレーニングデータを再考しない動的学習セッションを含むので、状態遷移経験の最新の固定サイズの部分を格納するだけです。
ロボットの移動と操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2020-09-25T01:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。