論文の概要: Do we really have to filter out random noise in pre-training data for language models?
- arxiv url: http://arxiv.org/abs/2502.06604v1
- Date: Mon, 10 Feb 2025 16:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:43.493093
- Title: Do we really have to filter out random noise in pre-training data for language models?
- Title(参考訳): 言語モデルのための事前学習データのランダムノイズをフィルタする必要があるのでしょうか?
- Authors: Jinghan Ru, Yuxin Xie, Xianwei Zhuang, Yuguo Yin, Yuexian Zou,
- Abstract要約: インターネットから収集された事前学習されたテキストデータは、必然的にデコードエラーや規制されていないウェブコンテンツに起因するランダムノイズを含む。
この現象を理論的に正当化し、多言語モデルの成功を解明する。
実験により、下流タスクにおけるモデルの性能はNTP損失のみに基づくものではなく、ランダムノイズが下流タスクのパフォーマンスを劣化させる可能性があることが示された。
本稿では,下流タスクヘッドの復調能力を明確に向上させる,新しいプラグアンドプレイ型局所勾配整合損失を提案する。
- 参考スコア(独自算出の注目度): 42.966566701950164
- License:
- Abstract: Web-scale pre-training datasets are the cornerstone of LLMs' success. However, text data curated from the internet inevitably contains random noise caused by decoding errors or unregulated web content. In contrast to previous works that focus on low quality or synthetic data, our study \textbf{provides the first systematic investigation into such random noise through a cohesive ``What-Why-How'' framework.} Surprisingly, we observed that the resulting increase in next-token prediction (NTP) loss was significantly lower than the proportion of random noise. We provide a theoretical justification for this phenomenon, which also elucidates the success of multilingual models. On the other hand, experiments show that the model's performance in downstream tasks is not based solely on the NTP loss, which means that random noise may result in degraded downstream performance. To address the potential adverse effects, we introduce a novel plug-and-play Local Gradient Matching loss, which explicitly enhances the denoising capability of the downstream task head by aligning the gradient of normal and perturbed features without requiring knowledge of the model's parameters. Additional experiments on 8 language and 14 vision benchmarks further validate its effectiveness.
- Abstract(参考訳): Webスケールの事前トレーニングデータセットは、LLMの成功の基盤となっている。
しかし、インターネットから収集されたテキストデータは、必然的にデコードエラーや規制されていないウェブコンテンツに起因するランダムノイズを含む。
低品質・合成データに焦点をあてた従来の研究とは対照的に,我々の研究は<What-Why-How'フレームワークを用いて,このようなランダムノイズに関する最初の体系的な研究を行っている。
結果,Next-token Prediction (NTP) 損失の増加はランダムノイズの比よりも有意に低かった。
この現象を理論的に正当化し、多言語モデルの成功を解明する。
一方, ダウンストリームタスクにおけるモデルの性能は, NTP損失のみに基づくものではなく, ランダムノイズがダウンストリーム性能を劣化させる可能性があることを示す実験結果が得られた。
モデルパラメータの知識を必要とせず,通常の特徴と摂動特徴の勾配を整列させることにより,下流タスクヘッドのデノナイズ能力を明確に向上させる。
8言語と14のビジョンベンチマークに関する追加実験は、その有効性をさらに検証している。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Confidence-based Reliable Learning under Dual Noises [46.45663546457154]
ディープニューラルネットワーク(DNN)は、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
しかし、オープンワールドから収集されたデータはノイズによって必然的に汚染され、学習されたモデルの有効性を著しく損なう可能性がある。
データノイズ下でDNNを確実に訓練する様々な試みがなされているが、ラベルに存在するノイズと画像に存在するノイズを別々に考慮している。
この作業は、ジョイント(イメージ、ラベル)ノイズの下での信頼性学習のための、最初の統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-10T07:50:34Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。