Fugu-MT 論文翻訳(概要): TrainMover: Efficient ML Training Live Migration with No Memory Overhead

論文の概要: TrainMover: Efficient ML Training Live Migration with No Memory Overhead

arxiv url: http://arxiv.org/abs/2412.12636v1
Date: Tue, 17 Dec 2024 07:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.593986
Title: TrainMover: Efficient ML Training Live Migration with No Memory Overhead
Title（参考訳）: TrainMover: メモリオーバーヘッドのない効率的なMLトレーニングライブマイグレーション
Authors: ChonLam Lao, Minlan Yu, Aditya Akella, Jiamin Cao, Yu Guan, Pengcheng Zhang, Zhilong Zheng, Yichi Xu, Ennan Zhai, Dennis Cai, Jiaqi Gao,
Abstract要約: 機械学習トレーニング中の機械置換を可能にするライブマイグレーションシステムであるTrainMoverを提案する。評価の結果,TrainMoverは全ベースラインの16倍のダウンタイムを達成できた。
参考スコア（独自算出の注目度）: 16.38937239546935
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning training has emerged as one of the most prominent workloads in modern data centers. These training jobs are large-scale, long-lasting, and tightly coupled, and are often disrupted by various events in the cluster such as failures, maintenance, and job scheduling. To handle these events, we rely on cold migration, where we first checkpoint the entire cluster, replace the related machines, and then restart the training. This approach leads to disruptions to the training jobs, resulting in significant downtime. In this paper, we present TrainMover, a live migration system that enables machine replacement during machine learning training. TrainMover minimizes downtime by leveraging member replacement of collective communication groups and sandbox lazy initialization. Our evaluation demonstrates that TrainMover achieves 16x less downtime compared to all baselines, effectively handling data center events like straggler rebalancing, maintenance, and unexpected failures.
Abstract（参考訳）: 機械学習トレーニングは、現代のデータセンターでもっとも顕著なワークロードの1つとして登場した。これらのトレーニングジョブは大規模で長期的、密結合であり、障害やメンテナンス、ジョブスケジューリングといったクラスタ内のさまざまなイベントによって混乱することが多い。これらのイベントを処理するには、まずクラスタ全体をチェックポイントし、関連するマシンを置き換えて、トレーニングを再開する、コールドマイグレーションに頼っています。このアプローチはトレーニングジョブを混乱させ、大幅なダウンタイムをもたらします。本稿では,機械学習トレーニング中の機械置換を可能にするライブマイグレーションシステムTrainMoverを提案する。 TrainMoverは、グループ通信グループのメンバ置換とサンドボックス遅延初期化を活用することで、ダウンタイムを最小限にする。評価の結果,TrainMoverは全ベースラインの16倍のダウンタイムを実現し,トラグルリバランシングやメンテナンス,予期せぬ障害といったデータセンタイベントを効果的に処理できることがわかった。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Alchemist: Towards the Design of Efficient Online Continual Learning System [15.224901317189728]
我々はAlchemistを提案し、私たちの知る限り、トレーニングスループットを向上させるためにサービス活性化を効率的に再利用する最初のオンライン連続学習システムを提案する。 Alchemyはトレーニングスループットを最大1.72倍に向上し、トレーニング中に最大47%のメモリ使用量を削減し、最大2倍のトレーニングトークンをサポートする。
論文参考訳（メタデータ） (2025-03-03T00:14:34Z)
Exploring the Benefit of Activation Sparsity in Pre-training [117.25661020250658]
プレトレーニング中に活性化特性がどう変化するかを検討した。本稿では,Sparse-Dense Learning (SSD)を提案する。 SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
論文参考訳（メタデータ） (2024-10-04T13:53:33Z)
ProTrain: Efficient LLM Training via Memory-Aware Techniques [18.30799115938978]
本稿では,メモリ,計算,IOの調整によってメモリ使用量と性能のバランスをとる新しいトレーニングシステムであるProTrainを提案する。 ProTrainは、SOTAのトレーニングシステムと比較して、トレーニングのスループットを1.43$times$から2.71$timesに改善する。
論文参考訳（メタデータ） (2024-06-12T15:40:06Z)
Unicron: Economizing Self-Healing LLM Training at Scale [43.59768821780751]
大規模な言語モデルトレーニングにおいて,効率的な自己修復を行うためのワークロードマネージャUnicronを紹介する。 Unicronはクラスタ内の複数の並行タスクにおける障害関連コストを最小限にする。これは最先端の手法よりも訓練効率が1.9倍向上したことを示している。
論文参考訳（メタデータ） (2023-12-30T04:06:16Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文参考訳（メタデータ） (2023-10-16T04:06:52Z)
Fast Machine Unlearning Without Retraining Through Selective Synaptic Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文参考訳（メタデータ） (2023-08-15T11:30:45Z)
Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文参考訳（メタデータ） (2022-11-07T08:05:13Z)
The Right to be Forgotten in Federated Learning: An Efficient Realization with Rapid Retraining [22.16510303054159]
訓練されたFLモデルからデータサンプルを完全に消去する高速再学習手法を提案する。我々の形式的収束と複雑性解析は、我々の設計がモデルユーティリティを高い効率で維持できることを示した。
論文参考訳（メタデータ） (2022-03-14T17:22:40Z)
Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文参考訳（メタデータ） (2021-12-11T08:05:11Z)
Continuous Transition: Improving Sample Efficiency for Continuous Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。また, 建設過程を自動案内する判別器を開発した。
論文参考訳（メタデータ） (2020-11-30T01:20:23Z)
How Important is the Train-Validation Split in Meta-Learning? [155.5088631672781]
メタラーニングにおける一般的な実践は、前者がデータの1つの分割に対してタスクに適応し、その結果の予測器が別の分割に対して評価される列車バリデーション分割(emphtrain-val method)を実行することである。有病率にもかかわらず、列車の改札の重要性は理論上も実際上もよく理解されていない。そこで本研究では,実際のメタ学習タスクとシミュレーションの両方において,トレイン・トレイン法がトレイン・ヴァル法より優れていることを示す。
論文参考訳（メタデータ） (2020-10-12T16:48:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。