Fugu-MT 論文翻訳(概要): TRANSOM: An Efficient Fault-Tolerant System for Training LLMs

論文の概要: TRANSOM: An Efficient Fault-Tolerant System for Training LLMs

arxiv url: http://arxiv.org/abs/2310.10046v3
Date: Wed, 18 Oct 2023 15:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 12:37:38.859036
Title: TRANSOM: An Efficient Fault-Tolerant System for Training LLMs
Title（参考訳）: TransOM: LLM訓練のための高効率耐故障性システム
Authors: Baodong Wu, Lei Xia, Qingping Li, Kangyu Li, Xu Chen, Yongqiang Guo, Tieyao Xiang, Yuheng Chen, Shigang Li
Abstract要約: 数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
参考スコア（独自算出の注目度）: 7.831906758749453
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) with hundreds of billions or trillions of parameters, represented by chatGPT, have achieved profound impact on various fields. However, training LLMs with super-large-scale parameters requires large high-performance GPU clusters and long training periods lasting for months. Due to the inevitable hardware and software failures in large-scale clusters, maintaining uninterrupted and long-duration training is extremely challenging. As a result, A substantial amount of training time is devoted to task checkpoint saving and loading, task rescheduling and restart, and task manual anomaly checks, which greatly harms the overall training efficiency. To address these issues, we propose TRANSOM, a novel fault-tolerant LLM training system. In this work, we design three key subsystems: the training pipeline automatic fault tolerance and recovery mechanism named Transom Operator and Launcher (TOL), the training task multi-dimensional metric automatic anomaly detection system named Transom Eagle Eye (TEE), and the training checkpoint asynchronous access automatic fault tolerance and recovery technology named Transom Checkpoint Engine (TCE). Here, TOL manages the lifecycle of training tasks, while TEE is responsible for task monitoring and anomaly reporting. TEE detects training anomalies and reports them to TOL, who automatically enters the fault tolerance strategy to eliminate abnormal nodes and restart the training task. And the asynchronous checkpoint saving and loading functionality provided by TCE greatly shorten the fault tolerance overhead. The experimental results indicate that TRANSOM significantly enhances the efficiency of large-scale LLM training on clusters. Specifically, the pre-training time for GPT3-175B has been reduced by 28%, while checkpoint saving and loading performance have improved by a factor of 20.
Abstract（参考訳）: chatgptに代表される数百億ないし数兆のパラメータを持つ大規模言語モデル(llm)は、さまざまな分野に大きな影響を与えている。しかし、超大規模パラメータでLLMをトレーニングするには、大きな高性能GPUクラスタと長期間のトレーニング期間が必要である。大規模クラスタで必然的なハードウェアとソフトウェア障害のため、中断のない長期トレーニングを維持することは極めて難しい。結果として、タスクチェックポイントの保存とロード、タスクの再スケジュールと再起動、タスクマニュアル異常チェックに相当量のトレーニング時間が費やされ、全体的なトレーニング効率に大きく影響する。これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。本研究では,TOL(Transom Operator and Launcher)と呼ばれるトレーニングパイプラインの自動耐故障・回復機構,TEE(Transom Eagle Eye)と呼ばれる多次元自動異常検出システム,TCE(Transom Checkpoint Engine)と呼ばれるトレーニングチェックポイント非同期アクセス自動耐故障・回復技術,の3つの重要なサブシステムを設計する。ここでは、TOLがトレーニングタスクのライフサイクルを管理し、TEEがタスク監視と異常レポートを担当します。 TEEはトレーニング異常を検出してTOLに報告し、障害耐性戦略を入力して異常ノードを排除し、トレーニングタスクを再起動する。 TCEが提供する非同期チェックポイントの保存とロード機能は、フォールトトレランスのオーバーヘッドを大幅に短縮します。実験結果から,TransOMはクラスタ上での大規模LLMトレーニングの効率を著しく向上させることが示された。具体的には, GPT3-175Bの事前学習時間を28%削減し, チェックポイントの保存およびロード性能は20。

関連論文リスト

Mastering Massive Multi-Task Reinforcement Learning via Mixture-of-Expert Decision Transformer [56.898822179122476]
M3DTは、モデルのパラメータのスケーラビリティをさらに開放することで、タスクのスケーラビリティに対処する新しいM3DTフレームワークである。実験結果から,M3DTは,専門家の数を増やすことにより,一定のタスク数に対するモデル拡張としての性能を継続的に向上するだけでなく,タスクのスケーラビリティも向上し,性能が向上した160タスクにまで拡張できることが示唆された。
論文参考訳（メタデータ） (2025-05-30T09:08:52Z)
TrainMover: An Interruption-Resilient and Reliable ML Training Runtime [16.38937239546935]
TrainMoverは、スタンバイマシンを活用して、最小のダウンタイムとメモリオーバーヘッドゼロで割り込みを処理する、レジリエントなランタイムである。以上の結果から,TrainMoverは移動中の全モデルに対して連続的に第2レベルのダウンタイムを実現し,周期的10分間のリバランスにおいて,99%のトレーニング効率を維持した。
論文参考訳（メタデータ） (2024-12-17T07:59:31Z)
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文参考訳（メタデータ） (2024-12-05T18:58:27Z)
Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks? [74.88417042125985]
複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-27T17:55:27Z)
MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文参考訳（メタデータ） (2024-10-19T04:31:54Z)
Light-Weight Fault Tolerant Attention for Large Language Model Training [14.178223242134166]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を示した。 LLMは、特にアテンション機構において故障の影響を受けやすいが、これはトランスフォーマーベースのLLMの重要な構成要素である。我々は,LLMにおけるアテンション機構に適したアルゴリズムベースフォールトトレランス(ABFT)技術であるATTNCheckerを提案する。
論文参考訳（メタデータ） (2024-10-15T15:52:45Z)
Training Overhead Ratio: A Practical Reliability Metric for Large Language Model Training Systems [13.880001659156926]
大規模言語モデル(LLM)は、優れた能力でAI産業に革命をもたらしている。これらのモデルのトレーニングには、大規模なGPUクラスタと大幅な計算時間が必要で、頻繁な障害が発生する。本稿では, 耐故障性LLMトレーニングシステムの信頼性を評価するために, emphTraining Overhead Ratio (TOR) と呼ばれる新しい信頼性指標を提案する。
論文参考訳（メタデータ） (2024-08-14T11:55:28Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
Boosting Distributed Machine Learning Training Through Loss-tolerant Transmission Protocol [11.161913989794257]
分散機械学習(DML)システムは、データセンター(DC)とエッジノードにおけるモデルトレーニングのスピードを高めるために使用される。 PS通信アーキテクチャは、多対一の"インキャスト"トラフィックパターンが原因で、トレーニングスループットに悪影響を及ぼすという、非常に長いレイテンシに直面している。 textbfLoss-tolerant textbfTransmission textbfProcolは、同期中に勾配が部分的に失われ、不要な再送信を避ける。 textitEarly Closes the loss-tolerant threshold based on network conditions and textit
論文参考訳（メタデータ） (2023-05-07T14:01:52Z)
Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。 SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文参考訳（メタデータ） (2023-03-02T22:12:51Z)
ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。 ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文参考訳（メタデータ） (2023-01-30T02:27:02Z)
M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-26T15:40:24Z)
Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。