論文の概要: How Much Can We Forget about Data Contamination?
- arxiv url: http://arxiv.org/abs/2410.03249v3
- Date: Thu, 30 Jan 2025 16:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:20.243914
- Title: How Much Can We Forget about Data Contamination?
- Title(参考訳): データ汚染について、どこまで忘れられるのか?
- Authors: Sebastian Bordt, Suraj Srinivas, Valentyn Boreiko, Ulrike von Luxburg,
- Abstract要約: トレーニングデータへのベンチマークデータの漏洩は、大規模言語モデルにとって重要な課題である。
3次元のスケーリングに基づいてベンチマークオーバーフィッティングの規模を実験的に定量化する。
また, 重み劣化パラメータが例忘れに及ぼす影響について検討し, 累積重み劣化よりも経験的忘れが早く起こることを示した。
- 参考スコア(独自算出の注目度): 15.893161447368273
- License:
- Abstract: The leakage of benchmark data into the training data has emerged as a significant challenge for evaluating the capabilities of large language models (LLMs). In this work, we challenge the common assumption that small-scale contamination renders benchmark evaluations invalid. First, we experimentally quantify the magnitude of benchmark overfitting based on scaling along three dimensions: The number of model parameters (up to 1.6B), the number of times an example is seen (up to 144), and the number of training tokens (up to 40B). If model and data follow the Chinchilla scaling laws, minor contamination indeed leads to overfitting. At the same time, even 144 times of contamination can be forgotten if the training data is scaled beyond five times Chinchilla, a regime characteristic of many modern LLMs. Continual pre-training of OLMo-7B corroborates these results. Next, we study the impact of the weight decay parameter on example forgetting, showing that empirical forgetting occurs faster than the cumulative weight decay. This allows us to gauge the degree of example forgetting in large-scale training runs, indicating that many LLMs, including Lllama 3 405B, have forgotten the data seen at the beginning of training.
- Abstract(参考訳): トレーニングデータへのベンチマークデータの漏洩は,大規模言語モデル(LLM)の能力を評価する上で,大きな課題となっている。
本研究では,小規模汚染がベンチマーク評価を無効にするという一般的な仮定に挑戦する。
まず,3次元のスケーリングに基づいてベンチマークオーバーフィッティングの規模を実験的に定量化する。モデルパラメータの数(1.6Bまで),サンプルの回数(144まで),トレーニングトークンの数(40Bまで)。
もしモデルとデータがチンチラのスケーリング法に従えば、小さな汚染は確かに過度に適合する。
同時に、トレーニングデータがチンチラの5倍を超えれば、144倍の汚染も忘れてはならない。
OLMo-7Bの連続事前学習はこれらの結果を裏付ける。
次に, 重み劣化パラメータが例忘れに及ぼす影響について検討し, 累積重み劣化よりも高速に経験的忘れが生じることを示した。
これにより,Lllama 3 405Bを含む多くのLLMが,トレーニング開始時のデータを忘れていることを示す。
関連論文リスト
- How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文 参考訳(メタデータ) (2025-02-20T12:31:03Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs
"Difficult" Downstream Tasks in LLMs [71.56345106591789]
大型言語モデル(LLM)の重みには、かなりの冗長性が含まれていると信じられている。
本稿では,下流の難題に対処する上で必要となる重要な知識を包含する,事前訓練されたモデル重みの小さなマグニチュード重みについて述べる。
論文 参考訳(メタデータ) (2023-09-29T22:55:06Z) - Exploring Weight Balancing on Long-Tailed Recognition Problem [32.01426831450348]
クラスごとのサンプルサイズが重く歪んだ長いデータにおける認識問題の重要性が高まっている。
古典的正規化技術と2段階トレーニングを組み合わせた重みバランスが提案されている。
トレーニング段階ごとの神経崩壊とコーン効果に着目して重量バランスを解析した。
論文 参考訳(メタデータ) (2023-05-26T01:45:19Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Input Perturbation Reduces Exposure Bias in Diffusion Models [41.483581603727444]
本稿では,長いサンプリングチェーンが,自己回帰テキスト生成における露出バイアス問題と同様の誤差蓄積現象を引き起こすことを示す。
本稿では,推定時間予測誤差をシミュレートするために,基底真理サンプルを摂動させることにより,非常に単純で効果的なトレーニング正則化を提案する。
実験により,リコールと精度に影響を与えることなく,提案した入力摂動がサンプル品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-01-27T13:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。