Fugu-MT 論文翻訳(概要): Understanding Stragglers in Large Model Training Using What-if Analysis

論文の概要: Understanding Stragglers in Large Model Training Using What-if Analysis

arxiv url: http://arxiv.org/abs/2505.05713v1
Date: Fri, 09 May 2025 01:24:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-12 20:40:10.119896
Title: Understanding Stragglers in Large Model Training Using What-if Analysis
Title（参考訳）: What-if分析を用いた大規模モデル学習におけるストラグラーの理解
Authors: Jinkun Lin, Ziheng Jiang, Zuquan Song, Sida Zhao, Menghan Yu, Zhanghan Wang, Chenyuan Wang, Zuocheng Shi, Xiang Shi, Wei Jia, Zherui Liu, Shuguang Wang, Haibin Lin, Xiu Liu, Aurojit Panda, Jinyang Li,
Abstract要約: 大規模言語モデル(LLM)トレーニングは、今日では最も要求の多い分散計算の1つである。このようなワークロードパターンは、少ない遅い作業者によってトレーニングを中断できるストラグラーの影響を受けやすくする。本研究の目的は, ByteDance トレーニングクラスタから収集した5ヶ月のトレースを用いて, LLM トレーニングにおけるストラグラー問題に関する総合的研究を行うことである。
参考スコア（独自算出の注目度）: 11.08991432978686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM) training is one of the most demanding distributed computations today, often requiring thousands of GPUs with frequent synchronization across machines. Such a workload pattern makes it susceptible to stragglers, where the training can be stalled by few slow workers. At ByteDance we find stragglers are not trivially always caused by hardware failures, but can arise from multiple complex factors. This work aims to present a comprehensive study on the straggler issues in LLM training, using a five-month trace collected from our ByteDance LLM training cluster. The core methodology is what-if analysis that simulates the scenario without any stragglers and contrasts with the actual case. We use this method to study the following questions: (1) how often do stragglers affect training jobs, and what effect do they have on job performance; (2) do stragglers exhibit temporal or spatial patterns; and (3) what are the potential root causes for stragglers?
Abstract（参考訳）: 大規模言語モデル(LLM)トレーニングは、今日では最も要求の多い分散計算の1つであり、マシン間で頻繁に同期する数千のGPUを必要とすることが多い。このようなワークロードパターンは、少ない遅い作業者によってトレーニングを中断できるストラグラーの影響を受けやすくする。 ByteDanceでは、ストラグラーが必ずしもハードウェアの障害によって引き起こされるわけではないが、複数の複雑な要因から生じる可能性がある。本研究の目的は, ByteDance LLMトレーニングクラスタから収集した5ヶ月のトレースを用いて, LLMトレーニングにおけるストラグラー問題に関する総合的研究を行うことである。中心となる方法論は、ストラグラーなしでシナリオをシミュレートし、実際のケースと対比するWhat-if分析である。この手法を用いて,(1)ストラグラーがトレーニング職にどの程度の頻度で影響を及ぼすか,(2)ストラグラーが時間的・空間的パターンを示すか,(3)ストラグラーの潜在的な根本原因は何か,といった質問を行う。

関連論文リスト

Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test [19.213961869113188]
7B大言語モデル(LLM)の1パス事前学習(OLMoE)におけるチェックポイントのグルーキングに関する最初の研究を行う。我々の研究は、大規模な基礎モデルの事前学習において、グルーキングが依然として発生していることを初めて確認した。経路距離と1つの経路の複雑さを定量化する2つの新しい指標を開発した。
論文参考訳（メタデータ） (2025-06-26T17:59:58Z)
Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。本研究は,推定時に大量の計算を回避できることを実証した。
論文参考訳（メタデータ） (2024-10-12T09:21:45Z)
DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models [3.3484462092188005]
モデルと状態シャードを構成するテンソルが、長期間にわたって不変であるという事実を生かして、遅延非同期マルチレベルアプローチを導入する。その結果、48$times$より高速なチェックポイントと2.2$times$より高速なエンドツーエンドトレーニングを実現した。
論文参考訳（メタデータ） (2024-06-15T18:30:40Z)
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文参考訳（メタデータ） (2024-03-11T15:48:56Z)
Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文参考訳（メタデータ） (2024-03-04T16:23:58Z)
DropCompute: simple and more robust distributed synchronous training via compute variance reduction [30.46681332866494]
本稿では,計算時間の変動により労働者が混在する典型的なシナリオについて考察する。作業者間のばらつきを低減し,同期学習の堅牢性を向上する,シンプルで効果的な分散化手法を提案する。
論文参考訳（メタデータ） (2023-06-18T16:55:31Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。 SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文参考訳（メタデータ） (2022-10-26T21:03:46Z)
What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文参考訳（メタデータ） (2021-06-08T08:58:00Z)
DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文参考訳（メタデータ） (2020-03-16T16:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。