論文の概要: TRANSOM: An Efficient Fault-Tolerant System for Training LLMs
- arxiv url: http://arxiv.org/abs/2310.10046v2
- Date: Tue, 17 Oct 2023 17:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 10:45:40.485925
- Title: TRANSOM: An Efficient Fault-Tolerant System for Training LLMs
- Title(参考訳): TransOM: LLM訓練のための高効率耐故障性システム
- Authors: Baodong Wu, Lei Xia, Qingping Li, Kangyu Li, Xu Chen, Yongqiang Guo,
Tieyao Xiang, Yuheng Chen, Shigang Li
- Abstract要約: 本稿では,耐故障性のある大規模モデルトレーニングシステムであるTransOMを紹介する。
トレーニングパイプライン自動耐障害回復機構(TOL)、トレーニングタスク多次元メートル法自動異常検出システム(TEE)、トレーニングチェックポイント非同期アクセス自動耐障害回復技術(TCE)の3つの統合コンポーネントから構成される。
実験結果から,TransOMはクラスタ上での大規模LLMトレーニングの効率を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 7.831906758749453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs), exemplified by chatGPT, have made significant
strides in various domains, indicating that LLMs with hundreds of billions or
even trillions of parameters will continue to revolutionize our daily lives.
However, training such super-large-scale models demands even more powerful GPU
clusters and extended training periods spanning months. Maintaining
uninterrupted and long-duration training has become exceptionally challenging
due to hardware and software failures in these extensive clusters. A
substantial amount of training time is devoted to tasks checkpointing saving
and loading, ananomaly detection and restarts, leading to a notable reduction
in overall training efficiency.To address these challenges, we introduce novel
fault-tolerant large-scale model training system named TRANSOM. This system
comprises three integral components: the training pipeline automatic fault
tolerance and recovery mechanism (TOL), the training task multi-dimensional
metric automatic anomaly detection system (TEE), and the training checkpoint
asynchronous access automatic fault tolerance and recovery technology (TCE).
Here, TOL serves as the operating system for the training task, while TEE is
responsible for task monitoring and error handling, promptly detecting
anomalies and relaying them to TOL. Subsequently, TOL autonomously determines
and implements fault tolerance strategies for the training task, with the TCE
facilitating asynchronous checkpoint saving and loading during the fault
tolerance process. The experimental results indicate that TRANSOM significantly
enhances the efficiency of large-scale LLM training on clusters. Specifically,
the pre-training time for GPT3-175B has been reduced by 28%, while checkpoint
saving and loading performance have improved by a factor of 20.
- Abstract(参考訳): chatgptで例示される大規模な言語モデル(llm)は、さまざまな領域で大きな進歩を遂げており、数十億、あるいは数十兆のパラメータを持つllmは、私たちの日常生活に革命をもたらし続けることを示唆している。
しかし、そのような超大規模モデルのトレーニングには、より強力なGPUクラスタと数ヶ月間のトレーニング期間が要求される。
断続的かつ長期にわたるトレーニングの維持は、これらの広範なクラスタでハードウェアとソフトウェアの障害のため、非常に困難になっている。
本研究は, 省力化, 省力化, 省力化, アナノマリ検出, 再起動などのタスクに相当量のトレーニング時間を費やし, 総合訓練効率の大幅な低下を招き, これらの課題に対処するために, TransOM という新しいフォールトトレラントな大規模モデルトレーニングシステムを導入する。
本システムは、トレーニングパイプライン自動耐故障回復機構(TOL)、トレーニングタスク多次元メートル法自動異常検出システム(TEE)、トレーニングチェックポイント非同期アクセス自動耐故障回復技術(TCE)の3つの統合コンポーネントから構成される。
ここで、TOLはトレーニングタスクのオペレーティングシステムとして機能し、TEEはタスクの監視とエラー処理を担当し、即座に異常を検出してTOLにリレーする。
その後、TOLはトレーニングタスクのフォールトトレランス戦略を自律的に決定、実装し、TEはフォールトトレランスプロセス中に非同期チェックポイントの保存とロードを容易にする。
実験結果から,TransOMはクラスタ上での大規模LLMトレーニングの効率を著しく向上させることが示された。
具体的には, GPT3-175Bの事前学習時間を28%削減し, チェックポイントの保存およびロード性能は20。
関連論文リスト
- FL-TAC: Enhanced Fine-Tuning in Federated Learning via Low-Rank, Task-Specific Adapter Clustering [12.417857960556155]
Federated Learning(FL)は,さまざまなタスクデータを備えた大規模クライアント間の微調整を可能にすることで,有望なソリューションを提供する。
本稿では,FLフレームワーク内の大規模事前学習モデルを低ランク微調整により微調整する際の通信コストについて述べる。
論文 参考訳(メタデータ) (2024-04-23T10:50:38Z) - Optimistic Verifiable Training by Controlling Hardware Nondeterminism [22.85808027490485]
本研究では,対象モデルよりも高精度なトレーニング,中間ステップ後のラウンドリング,ラウンドニング決定の格納を併用する手法を提案する。
我々は、ResNet-50 (23M) モデルと GPT-2 (117M) モデルのフルトレーニングと微調整の両方において、FP32の精度で正確なトレーニングレプリケーションを実現する。
論文 参考訳(メタデータ) (2024-03-14T17:44:35Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Boosting Distributed Machine Learning Training Through Loss-tolerant
Transmission Protocol [11.161913989794257]
分散機械学習(DML)システムは、データセンター(DC)とエッジノードにおけるモデルトレーニングのスピードを高めるために使用される。
PS通信アーキテクチャは、多対一の"インキャスト"トラフィックパターンが原因で、トレーニングスループットに悪影響を及ぼすという、非常に長いレイテンシに直面している。
textbfLoss-tolerant textbfTransmission textbfProcolは、同期中に勾配が部分的に失われ、不要な再送信を避ける。
textitEarly Closes the loss-tolerant threshold based on network conditions and textit
論文 参考訳(メタデータ) (2023-05-07T14:01:52Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える
我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-07T08:05:13Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - Towards Lifelong Self-Supervision For Unpaired Image-to-Image
Translation [8.597098266150295]
ライフロング・セルフ・スーパービジョン(LiSS)は,一組の自己監督型補助タスクにおいて,I2ITモデルを事前学習するための方法である。
また,LiSSでトレーニングしたモデルは,カラーバイアスやエンティティの絡み合いに対して,CycleGANベースラインよりも堅牢であることを示す。
論文 参考訳(メタデータ) (2020-03-31T23:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。