論文の概要: TRANSOM: An Efficient Fault-Tolerant System for Training LLMs
- arxiv url: http://arxiv.org/abs/2310.10046v3
- Date: Wed, 18 Oct 2023 15:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 12:37:38.859036
- Title: TRANSOM: An Efficient Fault-Tolerant System for Training LLMs
- Title(参考訳): TransOM: LLM訓練のための高効率耐故障性システム
- Authors: Baodong Wu, Lei Xia, Qingping Li, Kangyu Li, Xu Chen, Yongqiang Guo,
Tieyao Xiang, Yuheng Chen, Shigang Li
- Abstract要約: 数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。
超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
- 参考スコア(独自算出の注目度): 7.831906758749453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) with hundreds of billions or trillions of
parameters, represented by chatGPT, have achieved profound impact on various
fields. However, training LLMs with super-large-scale parameters requires large
high-performance GPU clusters and long training periods lasting for months. Due
to the inevitable hardware and software failures in large-scale clusters,
maintaining uninterrupted and long-duration training is extremely challenging.
As a result, A substantial amount of training time is devoted to task
checkpoint saving and loading, task rescheduling and restart, and task manual
anomaly checks, which greatly harms the overall training efficiency. To address
these issues, we propose TRANSOM, a novel fault-tolerant LLM training system.
In this work, we design three key subsystems: the training pipeline automatic
fault tolerance and recovery mechanism named Transom Operator and Launcher
(TOL), the training task multi-dimensional metric automatic anomaly detection
system named Transom Eagle Eye (TEE), and the training checkpoint asynchronous
access automatic fault tolerance and recovery technology named Transom
Checkpoint Engine (TCE). Here, TOL manages the lifecycle of training tasks,
while TEE is responsible for task monitoring and anomaly reporting. TEE detects
training anomalies and reports them to TOL, who automatically enters the fault
tolerance strategy to eliminate abnormal nodes and restart the training task.
And the asynchronous checkpoint saving and loading functionality provided by
TCE greatly shorten the fault tolerance overhead. The experimental results
indicate that TRANSOM significantly enhances the efficiency of large-scale LLM
training on clusters. Specifically, the pre-training time for GPT3-175B has
been reduced by 28%, while checkpoint saving and loading performance have
improved by a factor of 20.
- Abstract(参考訳): chatgptに代表される数百億ないし数兆のパラメータを持つ大規模言語モデル(llm)は、さまざまな分野に大きな影響を与えている。
しかし、超大規模パラメータでLLMをトレーニングするには、大きな高性能GPUクラスタと長期間のトレーニング期間が必要である。
大規模クラスタで必然的なハードウェアとソフトウェア障害のため、中断のない長期トレーニングを維持することは極めて難しい。
結果として、タスクチェックポイントの保存とロード、タスクの再スケジュールと再起動、タスクマニュアル異常チェックに相当量のトレーニング時間が費やされ、全体的なトレーニング効率に大きく影響する。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
本研究では,TOL(Transom Operator and Launcher)と呼ばれるトレーニングパイプラインの自動耐故障・回復機構,TEE(Transom Eagle Eye)と呼ばれる多次元自動異常検出システム,TCE(Transom Checkpoint Engine)と呼ばれるトレーニングチェックポイント非同期アクセス自動耐故障・回復技術,の3つの重要なサブシステムを設計する。
ここでは、TOLがトレーニングタスクのライフサイクルを管理し、TEEがタスク監視と異常レポートを担当します。
TEEはトレーニング異常を検出してTOLに報告し、障害耐性戦略を入力して異常ノードを排除し、トレーニングタスクを再起動する。
TCEが提供する非同期チェックポイントの保存とロード機能は、フォールトトレランスのオーバーヘッドを大幅に短縮します。
実験結果から,TransOMはクラスタ上での大規模LLMトレーニングの効率を著しく向上させることが示された。
具体的には, GPT3-175Bの事前学習時間を28%削減し, チェックポイントの保存およびロード性能は20。
関連論文リスト
- Optimistic Verifiable Training by Controlling Hardware Nondeterminism [22.85808027490485]
本研究では,対象モデルよりも高精度なトレーニング,中間ステップ後のラウンドリング,ラウンドニング決定の格納を併用する手法を提案する。
我々は、ResNet-50 (23M) モデルと GPT-2 (117M) モデルのフルトレーニングと微調整の両方において、FP32の精度で正確なトレーニングレプリケーションを実現する。
論文 参考訳(メタデータ) (2024-03-14T17:44:35Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum
Learning [16.76028762107313]
本稿では,障害のある限られた環境下で,遅い追従者が高速な避難者を捕まえるために協力するマルチエージェント追従の問題に対処する。
本アルゴリズムは,タスク成功率を評価し,カリキュラムアーカイブの維持に適度なタスクを選択するタスク評価器と,カリキュラムアーカイブからタスクをサンプリングし,ポリシー改善の最大化を図るタスクサンプリング器とから構成される。
論文 参考訳(メタデータ) (2023-12-19T15:39:09Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Boosting Distributed Machine Learning Training Through Loss-tolerant
Transmission Protocol [11.161913989794257]
分散機械学習(DML)システムは、データセンター(DC)とエッジノードにおけるモデルトレーニングのスピードを高めるために使用される。
PS通信アーキテクチャは、多対一の"インキャスト"トラフィックパターンが原因で、トレーニングスループットに悪影響を及ぼすという、非常に長いレイテンシに直面している。
textbfLoss-tolerant textbfTransmission textbfProcolは、同期中に勾配が部分的に失われ、不要な再送信を避ける。
textitEarly Closes the loss-tolerant threshold based on network conditions and textit
論文 参考訳(メタデータ) (2023-05-07T14:01:52Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える
我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-07T08:05:13Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - Towards Lifelong Self-Supervision For Unpaired Image-to-Image
Translation [8.597098266150295]
ライフロング・セルフ・スーパービジョン(LiSS)は,一組の自己監督型補助タスクにおいて,I2ITモデルを事前学習するための方法である。
また,LiSSでトレーニングしたモデルは,カラーバイアスやエンティティの絡み合いに対して,CycleGANベースラインよりも堅牢であることを示す。
論文 参考訳(メタデータ) (2020-03-31T23:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。