論文の概要: Quantifying the Effect of Test Set Contamination on Generative Evaluations
- arxiv url: http://arxiv.org/abs/2601.04301v1
- Date: Wed, 07 Jan 2026 18:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.875024
- Title: Quantifying the Effect of Test Set Contamination on Generative Evaluations
- Title(参考訳): テストセット汚染が生成的評価に及ぼす影響の定量化
- Authors: Rylan Schaeffer, Joshua Kazdan, Baber Abbasi, Ken Ziyu Liu, Brando Miranda, Ahmed Ahmed, Abhay Puri, Niloofar Mireshghallah, Sanmi Koyejo,
- Abstract要約: 言語モデルのライフサイクルを通じて,テストセット汚染が生成的評価に与える影響を定量的に評価する。
1つのテストセットのレプリカを含めれば、モデルは汚染されていないコーパスでのトレーニングの既約誤差よりも低い損失を達成できます。
- 参考スコア(独自算出の注目度): 32.04263083316908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As frontier AI systems are pretrained on web-scale data, test set contamination has become a critical concern for accurately assessing their capabilities. While research has thoroughly investigated the impact of test set contamination on discriminative evaluations like multiple-choice question-answering, comparatively little research has studied the impact of test set contamination on generative evaluations. In this work, we quantitatively assess the effect of test set contamination on generative evaluations through the language model lifecycle. We pretrain language models on mixtures of web data and the MATH benchmark, sweeping model sizes and number of test set replicas contaminating the pretraining corpus; performance improves with contamination and model size. Using scaling laws, we make a surprising discovery: including even a single test set replica enables models to achieve lower loss than the irreducible error of training on the uncontaminated corpus. We then study further training: overtraining with fresh data reduces the effects of contamination, whereas supervised finetuning on the training set can either increase or decrease performance on test data, depending on the amount of pretraining contamination. Finally, at inference, we identify factors that modulate memorization: high sampling temperatures mitigate contamination effects, and longer solutions are exponentially more difficult to memorize than shorter ones, presenting a contrast with discriminative evaluations, where solutions are only a few tokens in length. By characterizing how generation and memorization interact, we highlight a new layer of complexity for trustworthy evaluation of AI systems.
- Abstract(参考訳): WebスケールのデータでフロンティアAIシステムが事前訓練されているため、テストセットの汚染は、その能力を正確に評価する上で重要な問題となっている。
テストセット汚染が複数選択質問応答などの差別的評価に与える影響を徹底的に研究する一方で、テストセット汚染が生成的評価に与える影響についてはほとんど研究されていない。
本研究では,テストセット汚染が言語モデルライフサイクルにおける生成的評価に与える影響を定量的に評価する。
我々は,WebデータとMATHベンチマークの混合による言語モデルの事前訓練を行い,事前学習コーパスを汚染するテストセットのレプリカ数とモデルサイズを網羅し,性能を汚染とモデルサイズで改善する。
単一のテストセットのレプリカを含めれば、モデルは、汚染されていないコーパス上でのトレーニングの既約誤差よりも低い損失を達成できます。
新たなデータによるオーバートレーニングは汚染の影響を減少させるが、トレーニングセットにおける教師付き微調整は、事前トレーニングされた汚染量に応じて、テストデータのパフォーマンスを向上または低下させる可能性がある。
高いサンプリング温度は汚染効果を緩和し、長い解は短いものよりも指数関数的に覚えるのが困難であり、溶液が数個のトークンしか持たない差別的評価とは対照的である。
生成と記憶の相互作用を特徴付けることで、AIシステムの信頼できる評価のために、新しい複雑さの層を強調します。
関連論文リスト
- Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。
評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。
今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文 参考訳(メタデータ) (2025-05-31T19:43:00Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - LogProber: Disentangling confidence from contamination in LLM responses [17.91379291654773]
機械学習において、汚染とは、データテストがトレーニングセットにリークする状況を指す。
ブラックボックスの設定で汚染を検知できる新しい,効率的なアルゴリズムであるLogProberを紹介した。
論文 参考訳(メタデータ) (2024-08-26T15:29:34Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - A Taxonomy for Data Contamination in Large Language Models [12.643103231497813]
増大する懸念は、事前学習コーパスに評価データセットを含めることができるデータ汚染である。
このようなデータを検知し、除去するプロセスである汚染除去は、潜在的な解決策である。
下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。
論文 参考訳(メタデータ) (2024-07-11T17:50:34Z) - Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。
評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文 参考訳(メタデータ) (2024-01-11T17:24:49Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Practical Insights of Repairing Model Problems on Image Classification [3.2932371462787513]
ディープラーニングモデルの追加トレーニングは、結果にネガティブな影響をもたらし、初期正のサンプルを負のサンプルに変える(劣化)。
本稿では, 劣化低減手法の比較から得られた影響について述べる。
その結果、実践者は、AIシステムのデータセットの可用性とライフサイクルを継続的に考慮し、より良い方法に気を配るべきであることが示唆された。
論文 参考訳(メタデータ) (2022-05-14T19:28:55Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。