論文の概要: Unicron: Economizing Self-Healing LLM Training at Scale
- arxiv url: http://arxiv.org/abs/2401.00134v1
- Date: Sat, 30 Dec 2023 04:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 12:28:25.122308
- Title: Unicron: Economizing Self-Healing LLM Training at Scale
- Title(参考訳): Unicron: 大規模自己修復型LLMトレーニングの実施
- Authors: Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren
Zhou
- Abstract要約: 大規模な言語モデルトレーニングにおいて,効率的な自己修復を行うためのワークロードマネージャUnicronを紹介する。
Unicronはクラスタ内の複数の並行タスクにおける障害関連コストを最小限にする。
これは最先端の手法よりも訓練効率が1.9倍向上したことを示している。
- 参考スコア(独自算出の注目度): 43.59768821780751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large-scale language models is increasingly critical in various
domains, but it is hindered by frequent failures, leading to significant time
and economic costs. Current failure recovery methods in cloud-based settings
inadequately address the diverse and complex scenarios that arise, focusing
narrowly on erasing downtime for individual tasks without considering the
overall cost impact on a cluster. We introduce Unicron, a workload manager
designed for efficient self-healing in large-scale language model training.
Unicron optimizes the training process by minimizing failure-related costs
across multiple concurrent tasks within a cluster. Its key features include
in-band error detection for real-time error identification without extra
overhead, a dynamic cost-aware plan generation mechanism for optimal
reconfiguration, and an efficient transition strategy to reduce downtime during
state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates
up to a 1.9x improvement in training efficiency over state-of-the-art methods,
significantly reducing failure recovery costs and enhancing the reliability of
large-scale language model training.
- Abstract(参考訳): 大規模言語モデルの訓練は、様々な領域でますます重要になっているが、頻繁な失敗によって妨げられ、かなりの時間と経済的コストをもたらす。
クラウドベースの現在の障害復旧方法は、クラスタ全体のコストへの影響を考慮せずに、個々のタスクのダウンタイムの消去に焦点を絞った、多種多様な複雑なシナリオに不適切に対処する。
大規模な言語モデルトレーニングにおいて,効率的な自己修復を目的としたワークロードマネージャUnicronを紹介する。
unicronは、クラスタ内の複数の並行タスクにまたがる障害関連コストを最小限にすることで、トレーニングプロセスを最適化する。
その主な特徴は、過度なオーバーヘッドのないリアルタイムエラー識別のためのバンド内エラー検出、最適再構成のための動的コスト対応プラン生成機構、状態変更時のダウンタイムを削減する効率的な移行戦略である。
128GPUの分散クラスタ上にデプロイされたUnicronは、最先端の手法よりも1.9倍のトレーニング効率向上、障害復旧コストの大幅な削減、大規模言語モデルのトレーニングの信頼性向上を実証する。
関連論文リスト
- One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文 参考訳(メタデータ) (2024-05-30T16:05:15Z) - Federated Learning based on Pruning and Recovery [0.0]
このフレームワークは非同期学習アルゴリズムとプルーニング技術を統合している。
異種デバイスを含むシナリオにおいて、従来のフェデレーション学習アルゴリズムの非効率性に対処する。
また、非同期アルゴリズムで特定のクライアントの不安定な問題や不適切なトレーニングにも取り組みます。
論文 参考訳(メタデータ) (2024-03-16T14:35:03Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Serverless Federated AUPRC Optimization for Multi-Party Collaborative
Imbalanced Data Mining [119.89373423433804]
有効指標としてAUPRC(Area Under Precision-Recall)を導入した。
サーバーレスのマルチパーティ共同トレーニングは、サーバーノードのボトルネックを避けることで通信コストを削減できる。
本稿では,AUPRCを直接最適化する ServerLess biAsed sTochastic gradiEnt (SLATE) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-06T06:51:32Z) - Simplifying Distributed Neural Network Training on Massive Graphs:
Randomized Partitions Improve Model Aggregation [23.018715954992352]
本稿では、前述のコスト操作に依存しない分散GNNトレーニングのための簡易フレームワークを提案する。
具体的には,トレーニンググラフの局所的に利用可能な部分の局所モデルを非同期に学習する独立したトレーナーを編成する。
最大13億エッジのソーシャルおよびeコマースネットワークの実験において、提案したRandomTMAおよびSuperTMAアプローチは、最速のベースラインと比較して最先端のパフォーマンスと2.31倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-05-17T01:49:44Z) - Scavenger: A Cloud Service for Optimizing Cost and Performance of ML
Training [1.047192732651018]
我々は,クラウド上での分散MLモデルトレーニングのトレーニング時間とコストを最適化するための,原則的かつ実用的な手法を開発した。
従来の並列スケーリングの概念とSGDノイズに対する新たな洞察を組み合わせることで,クラスタ構成の異なる時間とコストを5%の誤差で正確に推定する。
論文 参考訳(メタデータ) (2023-03-12T13:42:39Z) - Time-sensitive Learning for Heterogeneous Federated Edge Intelligence [52.83633954857744]
フェデレーションエッジインテリジェンス(FEI)システムにおけるリアルタイム機械学習について検討する。
FEIシステムは異種通信と計算資源分布を示す。
本稿では,共有MLモデルの協調学習における全体の実行時間を最小化するために,時間依存型フェデレーションラーニング(TS-FL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-26T08:13:22Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。
コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。
提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-11T08:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。