論文の概要: Understanding Stragglers in Large Model Training Using What-if Analysis
- arxiv url: http://arxiv.org/abs/2505.05713v1
- Date: Fri, 09 May 2025 01:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.119896
- Title: Understanding Stragglers in Large Model Training Using What-if Analysis
- Title(参考訳): What-if分析を用いた大規模モデル学習におけるストラグラーの理解
- Authors: Jinkun Lin, Ziheng Jiang, Zuquan Song, Sida Zhao, Menghan Yu, Zhanghan Wang, Chenyuan Wang, Zuocheng Shi, Xiang Shi, Wei Jia, Zherui Liu, Shuguang Wang, Haibin Lin, Xiu Liu, Aurojit Panda, Jinyang Li,
- Abstract要約: 大規模言語モデル(LLM)トレーニングは、今日では最も要求の多い分散計算の1つである。
このようなワークロードパターンは、少ない遅い作業者によってトレーニングを中断できるストラグラーの影響を受けやすくする。
本研究の目的は, ByteDance トレーニングクラスタから収集した5ヶ月のトレースを用いて, LLM トレーニングにおけるストラグラー問題に関する総合的研究を行うことである。
- 参考スコア(独自算出の注目度): 11.08991432978686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) training is one of the most demanding distributed computations today, often requiring thousands of GPUs with frequent synchronization across machines. Such a workload pattern makes it susceptible to stragglers, where the training can be stalled by few slow workers. At ByteDance we find stragglers are not trivially always caused by hardware failures, but can arise from multiple complex factors. This work aims to present a comprehensive study on the straggler issues in LLM training, using a five-month trace collected from our ByteDance LLM training cluster. The core methodology is what-if analysis that simulates the scenario without any stragglers and contrasts with the actual case. We use this method to study the following questions: (1) how often do stragglers affect training jobs, and what effect do they have on job performance; (2) do stragglers exhibit temporal or spatial patterns; and (3) what are the potential root causes for stragglers?
- Abstract(参考訳): 大規模言語モデル(LLM)トレーニングは、今日では最も要求の多い分散計算の1つであり、マシン間で頻繁に同期する数千のGPUを必要とすることが多い。
このようなワークロードパターンは、少ない遅い作業者によってトレーニングを中断できるストラグラーの影響を受けやすくする。
ByteDanceでは、ストラグラーが必ずしもハードウェアの障害によって引き起こされるわけではないが、複数の複雑な要因から生じる可能性がある。
本研究の目的は, ByteDance LLMトレーニングクラスタから収集した5ヶ月のトレースを用いて, LLMトレーニングにおけるストラグラー問題に関する総合的研究を行うことである。
中心となる方法論は、ストラグラーなしでシナリオをシミュレートし、実際のケースと対比するWhat-if分析である。
この手法を用いて,(1)ストラグラーがトレーニング職にどの程度の頻度で影響を及ぼすか,(2)ストラグラーが時間的・空間的パターンを示すか,(3)ストラグラーの潜在的な根本原因は何か,といった質問を行う。
関連論文リスト
- Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models [3.3484462092188005]
モデルと状態シャードを構成するテンソルが、長期間にわたって不変であるという事実を生かして、遅延非同期マルチレベルアプローチを導入する。
その結果、48$times$より高速なチェックポイントと2.2$times$より高速なエンドツーエンドトレーニングを実現した。
論文 参考訳(メタデータ) (2024-06-15T18:30:40Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。