論文の概要: An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence
- arxiv url: http://arxiv.org/abs/2602.02400v1
- Date: Mon, 02 Feb 2026 17:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.341478
- Title: An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence
- Title(参考訳): 雑音データとLLMによる損失分散の予測に関する実証的研究
- Authors: Qizhen Zhang, Ankush Garg, Jakob Foerster, Niladri Chatterji, Kshitiz Malik, Mike Lewis,
- Abstract要約: ノイズデータはトレーニング損失のばらつきを実際に引き起こすことを示す。
また,ノイズによる発散は,高い学習率によって引き起こされるものと異なるアクティベーションパターンを示すことがわかった。
- 参考スコア(独自算出の注目度): 29.17303563861459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pretraining datasets drive the success of large language models (LLMs). However, these web-scale corpora inevitably contain large amounts of noisy data due to unregulated web content or randomness inherent in data. Although LLM pretrainers often speculate that such noise contributes to instabilities in large-scale LLM pretraining and, in the worst cases, loss divergence, this phenomenon remains poorly understood.In this work, we present a systematic empirical study of whether noisy data causes LLM pretraining divergences and how it does so. By injecting controlled synthetic uniformly random noise into otherwise clean datasets, we analyze training dynamics across model sizes ranging from 480M to 5.2B parameters. We show that noisy data indeed induces training loss divergence, and that the probability of divergence depends strongly on the noise type, amount of noise, and model scale. We further find that noise-induced divergences exhibit activation patterns distinct from those caused by high learning rates, and we provide diagnostics that differentiate these two failure modes. Together, these results provide a large-scale, controlled characterization of how noisy data affects loss divergence in LLM pretraining.
- Abstract(参考訳): 大規模事前トレーニングデータセットは、大規模言語モデル(LLM)の成功を促進する。
しかし、これらのウェブスケールコーパスは、不規則なウェブコンテンツやデータ固有のランダム性のために、必然的に大量のノイズデータを含んでいる。
LLMプレトレーナーは、このようなノイズが大規模LLMプレトレーナーの不安定性に寄与していると推測されることが多いが、最悪の場合、この現象は未だ理解されていない。
制御された合成ランダムノイズをクリーンなデータセットに注入することにより、480Mから5.2Bパラメータのモデルサイズにわたるトレーニングダイナミクスを解析する。
また,ノイズの種類,ノイズ量,モデルスケールに大きく依存していることが示唆された。
さらに、ノイズによる発散は、高い学習率によって引き起こされるものと異なるアクティベーションパターンを示し、これらの2つの障害モードを区別する診断手段を提供する。
これらの結果は,LLM事前学習におけるノイズデータが損失分散に与える影響を,大規模かつ制御的に評価する。
関連論文リスト
- Noisy Analysis of Quantum SMOTE on Condition Monitoring and Fault Classification in Industrial and Energy Systems [0.5505634045241289]
不均衡機械学習モデルは、産業状況の監視と故障分類パイプラインにおける根本的な問題である。
この研究は、クラス不均衡緩和の下での古典的分類器の詳細なベンチマークと調査を示す。
その結果,QSMOTEは分布スキューを一貫して補正し,非線形分類器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2026-01-16T16:44:38Z) - Scaling Behavior of Discrete Diffusion Language Models [74.72926629897636]
離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。
実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。
均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
論文 参考訳(メタデータ) (2025-12-11T17:54:10Z) - MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training [3.619444603816032]
大規模リポジトリでは、ノイズやラベルの誤りによって、正確性と堅牢性の両方を低下させている。
本稿では,音の診断と緩和を微調整プロセスに直接組み込む多段階適応ノイズTReAtmentフレームワークMANTRAを提案する。
論文 参考訳(メタデータ) (2025-12-03T23:09:55Z) - On the Collapse Errors Induced by the Deterministic Sampler for Diffusion Models [38.99546114710447]
崩壊誤差は、ODEベースの拡散サンプリングにおいて、これまで認識されていなかった現象である。
我々は,低騒音条件下でのスコア学習が高騒音条件下でのスコア学習に悪影響を及ぼすようなシーソー効果を観察する。
この高雑音状態における不適合性は、決定論的サンプリング器の力学と相まって、最終的に崩壊エラーを引き起こす。
論文 参考訳(メタデータ) (2025-08-22T07:26:24Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - An Investigation of Noise in Morphological Inflection [21.411766936034]
本研究は, パイプライン内で発生するノイズの種類を, 真の教師なし形態素パラダイムの完成のために検討する。
異なる種類のノイズが複数の最先端インフレクションモデルに与える影響を比較した。
本稿では,文字レベルのマスク付き言語モデリング(CMLM)の事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T02:14:34Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。