論文の概要: TTrace: Lightweight Error Checking and Diagnosis for Distributed Training
- arxiv url: http://arxiv.org/abs/2506.09280v1
- Date: Tue, 10 Jun 2025 22:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.134552
- Title: TTrace: Lightweight Error Checking and Diagnosis for Distributed Training
- Title(参考訳): TTrace:分散トレーニングのための軽量エラーチェックと診断
- Authors: Haitian Jiang, Shaowei Zhu, Zhen Zhang, Zhenyu Song, Xinwei Fu, Zhen Jia, Yida Wang, Jinyang Li,
- Abstract要約: TTraceは、分散トレーニングにおいて、サイレントバグを検出し、ローカライズする最初のシステムである。
TTraceは、BF16およびFP8を含む低精度なレシピを含む様々なトレーニングレシピに有効である。
- 参考スコア(独自算出の注目度): 11.495985629423041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed training is essential for scaling the training of large neural network models, such as large language models (LLMs), across thousands of GPUs. However, the complexity of distributed training programs makes them particularly prone to silent bugs, which do not produce explicit error signal but lead to incorrect training outcome. Effectively detecting and localizing such silent bugs in distributed training is challenging. Common debugging practice using metrics like training loss or gradient norm curves can be inefficient and ineffective. Additionally, obtaining intermediate tensor values and determining whether they are correct during silent bug localization is difficult, particularly in the context of low-precision training. To address those challenges, we design and implement TTrace, the first system capable of detecting and localizing silent bugs in distributed training. TTrace collects intermediate tensors from distributing training in a fine-grained manner and compares them against those from a trusted single-device reference implementation. To properly compare the floating-point values in the tensors, we propose novel mathematical analysis that provides a guideline for setting thresholds, enabling TTrace to distinguish bug-induced errors from floating-point round-off errors. Experimental results demonstrate that TTrace effectively detects 11 existing bugs and 3 new bugs in the widely used Megatron-LM framework, while requiring fewer than 10 lines of code change. TTrace is effective in various training recipes, including low-precision recipes involving BF16 and FP8.
- Abstract(参考訳): 大規模な言語モデル(LLM)のような大規模なニューラルネットワークモデルのトレーニングを数千のGPUにわたってスケールアップするには、分散トレーニングが不可欠だ。
しかし、分散トレーニングプログラムの複雑さは、特にサイレントバグを引き起こす傾向があり、これは明示的なエラー信号を生成するのではなく、誤ったトレーニング結果をもたらす。
分散トレーニングでこのような静かなバグを効果的に検出し、ローカライズすることは難しい。
トレーニング損失や勾配標準曲線といったメトリクスを使用した一般的なデバッグプラクティスは、非効率で非効率である。
さらに、特に低精度トレーニングの文脈において、中間テンソル値を取得し、サイレントバグローカライゼーション中に正しいかどうかを決定することは困難である。
これらの課題に対処するために,分散トレーニングにおける無声バグの検出と位置特定が可能な最初のシステムであるTTraceを設計,実装する。
TTraceは、トレーニングをきめ細かな方法で分散することから中間テンソルを収集し、信頼できる単一デバイスリファレンス実装のテンソルと比較する。
テンソル内の浮動小数点値と浮動小数点誤差を適切に比較するために, TTrace が浮動小数点誤差と浮動小数点誤差を区別できるように, しきい値を設定するためのガイドラインを提供する新しい数学的解析法を提案する。
実験の結果、TTraceは広く使われているMegatron-LMフレームワークで11の既存のバグと3つの新しいバグを効果的に検出し、コード変更は10行未満であることがわかった。
TTraceは、BF16およびFP8を含む低精度なレシピを含む様々なトレーニングレシピに有効である。
関連論文リスト
- Learning from Noisy Labels via Self-Taught On-the-Fly Meta Loss Rescaling [6.861041888341339]
そこで本研究では,リウェイトトレーニングサンプルに対する非教師なしメタロス再スケーリングを提案する。
我々は,対話モデリングの課題を生かした,初級訓練データの再重み付けを試みている。
我々の戦略は、ノイズの多いクリーンなデータに直面し、クラス不均衡を処理し、ノイズの多いラベルへの過度な適合を防ぐ。
論文 参考訳(メタデータ) (2024-12-17T14:37:50Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。
グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。
実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。
ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。
分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-20T14:23:54Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Learning to Learn to Demodulate with Uncertainty Quantification via
Bayesian Meta-Learning [59.014197664747165]
本稿では, よく校正された数パイロット復調器の取得を目的とした変分推論によるベイズ的メタラーニングについて紹介する。
その結果得られたベイズアンサンブルは、復調のためにニューラルネットワークの複数のインスタンスを実行する計算コストにおいて、より良い校正されたソフトな決定を提供する。
論文 参考訳(メタデータ) (2021-08-02T11:07:46Z) - Self-Adaptive Training: beyond Empirical Risk Minimization [15.59721834388181]
余分な計算コストを伴わずにモデル予測により問題ラベルを動的に補正する新しいトレーニングアルゴリズムを提案する。
自己適応型トレーニングは、様々なレベルのノイズに対する一般化を著しく改善し、自然と敵対両方のトレーニングにおいて過度に適合する問題を緩和する。
CIFARとImageNetデータセットの実験は、我々のアプローチの有効性を2つのアプリケーションで検証する。
論文 参考訳(メタデータ) (2020-02-24T15:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。