論文の概要: An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence
- arxiv url: http://arxiv.org/abs/2602.02400v1
- Date: Mon, 02 Feb 2026 17:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.341478
- Title: An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence
- Title(参考訳): 雑音データとLLMによる損失分散の予測に関する実証的研究
- Authors: Qizhen Zhang, Ankush Garg, Jakob Foerster, Niladri Chatterji, Kshitiz Malik, Mike Lewis,
- Abstract要約: ノイズデータはトレーニング損失のばらつきを実際に引き起こすことを示す。
また,ノイズによる発散は,高い学習率によって引き起こされるものと異なるアクティベーションパターンを示すことがわかった。
- 参考スコア(独自算出の注目度): 29.17303563861459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pretraining datasets drive the success of large language models (LLMs). However, these web-scale corpora inevitably contain large amounts of noisy data due to unregulated web content or randomness inherent in data. Although LLM pretrainers often speculate that such noise contributes to instabilities in large-scale LLM pretraining and, in the worst cases, loss divergence, this phenomenon remains poorly understood.In this work, we present a systematic empirical study of whether noisy data causes LLM pretraining divergences and how it does so. By injecting controlled synthetic uniformly random noise into otherwise clean datasets, we analyze training dynamics across model sizes ranging from 480M to 5.2B parameters. We show that noisy data indeed induces training loss divergence, and that the probability of divergence depends strongly on the noise type, amount of noise, and model scale. We further find that noise-induced divergences exhibit activation patterns distinct from those caused by high learning rates, and we provide diagnostics that differentiate these two failure modes. Together, these results provide a large-scale, controlled characterization of how noisy data affects loss divergence in LLM pretraining.
- Abstract(参考訳): 大規模事前トレーニングデータセットは、大規模言語モデル(LLM)の成功を促進する。
しかし、これらのウェブスケールコーパスは、不規則なウェブコンテンツやデータ固有のランダム性のために、必然的に大量のノイズデータを含んでいる。
LLMプレトレーナーは、このようなノイズが大規模LLMプレトレーナーの不安定性に寄与していると推測されることが多いが、最悪の場合、この現象は未だ理解されていない。
制御された合成ランダムノイズをクリーンなデータセットに注入することにより、480Mから5.2Bパラメータのモデルサイズにわたるトレーニングダイナミクスを解析する。
また,ノイズの種類,ノイズ量,モデルスケールに大きく依存していることが示唆された。
さらに、ノイズによる発散は、高い学習率によって引き起こされるものと異なるアクティベーションパターンを示し、これらの2つの障害モードを区別する診断手段を提供する。
これらの結果は,LLM事前学習におけるノイズデータが損失分散に与える影響を,大規模かつ制御的に評価する。
関連論文リスト
- On the Collapse Errors Induced by the Deterministic Sampler for Diffusion Models [38.99546114710447]
崩壊誤差は、ODEベースの拡散サンプリングにおいて、これまで認識されていなかった現象である。
我々は,低騒音条件下でのスコア学習が高騒音条件下でのスコア学習に悪影響を及ぼすようなシーソー効果を観察する。
この高雑音状態における不適合性は、決定論的サンプリング器の力学と相まって、最終的に崩壊エラーを引き起こす。
論文 参考訳(メタデータ) (2025-08-22T07:26:24Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - An Investigation of Noise in Morphological Inflection [21.411766936034]
本研究は, パイプライン内で発生するノイズの種類を, 真の教師なし形態素パラダイムの完成のために検討する。
異なる種類のノイズが複数の最先端インフレクションモデルに与える影響を比較した。
本稿では,文字レベルのマスク付き言語モデリング(CMLM)の事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T02:14:34Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。