論文の概要: Understanding Silent Data Corruption in LLM Training
- arxiv url: http://arxiv.org/abs/2502.12340v1
- Date: Mon, 17 Feb 2025 22:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:05:49.118463
- Title: Understanding Silent Data Corruption in LLM Training
- Title(参考訳): LLMトレーニングにおける無声データ破壊の理解
- Authors: Jeffrey Ma, Hengzhi Pei, Leonard Lausen, George Karypis,
- Abstract要約: 本研究では,SDCを呈する健全な生産ノードと不健康なノードのモデルトレーニングを比較して,サイレントデータ破損(SDC)が大規模言語訓練に与える影響について検討した。
その結果,SDCが計算に与える影響は,不健康なノードによって異なることがわかった。
- 参考スコア(独自算出の注目度): 22.679273469491754
- License:
- Abstract: As the scale of training large language models (LLMs) increases, one emergent failure is silent data corruption (SDC), where hardware produces incorrect computations without explicit failure signals. In this work, we are the first to investigate the impact of real-world SDCs on LLM training by comparing model training between healthy production nodes and unhealthy nodes exhibiting SDCs. With the help from a cloud computing platform, we access the unhealthy nodes that were swept out from production by automated fleet management. Using deterministic execution via XLA compiler and our proposed synchronization mechanisms, we isolate and analyze the impact of SDC errors on these nodes at three levels: at each submodule computation, at a single optimizer step, and at a training period. Our results reveal that the impact of SDCs on computation varies on different unhealthy nodes. Although in most cases the perturbations from SDCs on submodule computation and gradients are relatively small, SDCs can lead models to converge to different optima with different weights and even cause spikes in the training loss. Our analysis sheds light on further understanding and mitigating the impact of SDCs.
- Abstract(参考訳): 大規模言語モデル(LLMs)の訓練の規模が大きくなるにつれて、初期故障の1つはサイレントデータ破損(SDC)である。
本研究では、実世界のSDCがLLMトレーニングに与える影響を、健康な生産ノードとSDCを示す不健康なノードのモデルトレーニングを比較して調査する。
クラウドコンピューティングプラットフォームの助けを借りて、自動フリート管理によってプロダクションから追い出された不健全なノードにアクセスします。
XLAコンパイラによる決定論的実行と,提案する同期機構を用いて,これらのノードに対するSDCエラーの影響を,各サブモジュール計算,単一オプティマイザステップ,トレーニング期間の3段階で分離・解析する。
その結果,SDCが計算に与える影響は,不健康なノードによって異なることがわかった。
ほとんどの場合、サブモジュール計算や勾配に関するSDCからの摂動は比較的小さいが、SDCは異なる重みを持つ異なる最適度にモデルを収束させ、トレーニング損失のスパイクを引き起こす。
我々の分析は、SDCの影響のさらなる理解と緩和に光を当てている。
関連論文リスト
- OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。
提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - Revisiting the Disequilibrium Issues in Tackling Heart Disease Classification Tasks [5.834731599084117]
心臓病の分類の分野では2つの主要な障害が生じる。
心電図(ECG)データセットは、様々なモードにおける不均衡とバイアスを一貫して示している。
信号符号化画像に対してチャネルワイド・マグニチュード等化器(CME)を提案する。
また、データ間の不均衡を軽減するために、逆重対数損失(IWL)を提案する。
論文 参考訳(メタデータ) (2024-07-19T09:50:49Z) - On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning [18.318758111829386]
非パラメトリックなインスタンス識別に基づく効率的なシングルブランチSSL手法を提案する。
また,確率分布と正方形根版とのKL分散を最小限に抑える新しい自己蒸留損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T06:39:04Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Reducing self-supervised learning complexity improves weakly-supervised
classification performance in computational pathology [0.0]
自己教師付き学習(SSL)法は、注釈のないデータの大規模解析を可能にする。
本研究では、SSLの分類性能と、コンシューマグレードハードウェアの利用に関する複雑さについて検討した。
実験により,SSLトレーニング期間を90%短縮しつつ,下流分類性能を向上できることが実証された。
論文 参考訳(メタデータ) (2024-03-07T14:56:06Z) - Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。
微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。
クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文 参考訳(メタデータ) (2024-02-24T15:00:58Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。