Fugu-MT 論文翻訳(概要): Training Overhead Ratio: A Practical Reliability Metric for Large Language Model Training Systems

論文の概要: Training Overhead Ratio: A Practical Reliability Metric for Large Language Model Training Systems

arxiv url: http://arxiv.org/abs/2408.07482v1
Date: Wed, 14 Aug 2024 11:55:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 13:34:28.371881
Title: Training Overhead Ratio: A Practical Reliability Metric for Large Language Model Training Systems
Title（参考訳）: トレーニングオーバーヘッド比率:大規模言語モデルトレーニングシステムのための実践的信頼性指標
Authors: Ning Lu, Qian Xie, Hao Zhang, Wenyi Fang, Yang Zheng, Jiantao Ma,
Abstract要約: 大規模言語モデル(LLM)は、優れた能力でAI産業に革命をもたらしている。これらのモデルのトレーニングには、大規模なGPUクラスタと大幅な計算時間が必要で、頻繁な障害が発生する。本稿では, 耐故障性LLMトレーニングシステムの信頼性を評価するために, emphTraining Overhead Ratio (TOR) と呼ばれる新しい信頼性指標を提案する。
参考スコア（独自算出の注目度）: 13.585659582582483
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) are revolutionizing the AI industry with their superior capabilities. Training these models requires large-scale GPU clusters and significant computing time, leading to frequent failures that significantly increase training costs. Despite its significance, this field lacks a metric for evaluating reliability. In this work, we introduce a novel reliability metric called \emph{Training Overhead Ratio} (TOR) to evaluate the reliability of fault-tolerant LLM training systems. TOR is defined as the ratio of optimal training time to the observed training time of a system, serving as a practical tool for users to estimate the actual time required to train an LLM on a given system. Furthermore, our investigation identifies the key factor for enhancing reliability and present TOR equations for various types of failures encountered in practice.
Abstract（参考訳）: 大規模言語モデル(LLM)は、優れた能力でAI産業に革命をもたらしている。これらのモデルのトレーニングには、大規模なGPUクラスタと大きな計算時間が必要です。その重要性にもかかわらず、この分野は信頼性を評価するための指標が欠けている。本研究では,耐故障性LLMトレーニングシステムの信頼性を評価するために,新しい信頼性指標である \emph{Training Overhead Ratio} (TOR) を導入する。 TORは、観測されたシステムのトレーニング時間に対する最適なトレーニング時間の割合として定義され、あるシステム上でLLMのトレーニングに要する実際の時間を推定するための実用的なツールとして機能する。さらに,本研究では,信頼性向上の鍵となる要因と,実際に遭遇した各種障害に対するTOR式について検討した。

関連論文リスト

Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training [63.34044358216334]
ACTOR-CURATORは、大規模言語モデルの強化学習のためのスケーラブルで完全に自動化されたカリキュラム学習フレームワークである。経験的に、ACTOR-CURATORは一貫して一様サンプリングと強力なカリキュラムベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-24T04:19:48Z)
Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。 Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文参考訳（メタデータ） (2025-10-30T11:53:08Z)
EARL: Efficient Agentic Reinforcement Learning Systems for Large Language Models [10.372430331898608]
強化学習(RL)は,大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素となっている。本稿では,効率的なエージェントRLのためのスケーラブルなシステムEARLを提案する。
論文参考訳（メタデータ） (2025-10-07T13:52:51Z)
Robust LLM Training Infrastructure at ByteDance [21.53715636383753]
ByteRobustは、大規模言語モデル(LLM)の堅牢で安定したトレーニングに適した、大規模GPUインフラストラクチャ管理システムである。 LLMトレーニングプロセスの独自性を活用し、定期的に障害を検出して回復するための最優先事項を提供する。 ByteRobustはプロダクションGPUプラットフォームにデプロイされ、9600GPU上で3ヶ月のトレーニングジョブで97%のETTRを達成した。
論文参考訳（メタデータ） (2025-09-19T15:08:33Z)
Revisiting Reliability in Large-Scale Machine Learning Research Clusters [5.028600213808539]
信頼性は、大規模な機械学習インフラストラクチャを操作する上での根本的な課題である。インフラストラクチャ障害に関する何十年もの研究にもかかわらず、さまざまなスケールでのジョブ障害の影響は、まだ不明である。本稿では,2つの大規模マルチテナントMLクラスタを管理する視点について述べる。
論文参考訳（メタデータ） (2024-10-29T03:02:53Z)
Data-Aware Training Quality Monitoring and Certification for Reliable Deep Learning [13.846014191157405]
我々は、ニューラルネットワークトレーニングのリアルタイム、データ認識認証、監視のための新しいフレームワークであるYESトレーニングバウンドを紹介する。我々は,YESバウンダリが,最適地域におけるトレーニング損失高原の特定など,従来の局所最適化の視点を超えた洞察を提供することを示した。私たちはリアルタイム評価のための強力なツールを提供し、ディープラーニングにおける品質保証をトレーニングするための新しい標準を設定しています。
論文参考訳（メタデータ） (2024-10-14T18:13:22Z)
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。 MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文参考訳（メタデータ） (2024-10-09T17:59:04Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文参考訳（メタデータ） (2024-02-07T21:58:40Z)
vTrain: A Simulation Framework for Evaluating Cost-effective and Compute-optimal Large Language Model Training [3.0051215935332505]
本稿では, プロファイリング駆動型シミュレータvTrainについて, 効率的かつ費用対効果の高いトレーニングシステム構成を決定する。いくつかのケーススタディ、例えば最適な訓練並列化戦略を効果的に評価することで、vTrainの実用性を実証する。
論文参考訳（メタデータ） (2023-11-27T13:35:15Z)
Model-Based Runtime Monitoring with Interactive Imitation Learning [30.70994322652745]
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
論文参考訳（メタデータ） (2023-10-26T16:45:44Z)
TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文参考訳（メタデータ） (2023-10-16T04:06:52Z)
Fast Machine Unlearning Without Retraining Through Selective Synaptic Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文参考訳（メタデータ） (2023-08-15T11:30:45Z)
Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文参考訳（メタデータ） (2023-06-27T17:58:39Z)
FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。 ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。 FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文参考訳（メタデータ） (2022-09-28T19:49:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。