論文の概要: Soft Contamination Means Benchmarks Test Shallow Generalization
- arxiv url: http://arxiv.org/abs/2602.12413v1
- Date: Thu, 12 Feb 2026 21:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.756292
- Title: Soft Contamination Means Benchmarks Test Shallow Generalization
- Title(参考訳): ソフトな汚染手段がテスト不足の一般化をベンチマーク
- Authors: Ari Spiesberger, Juan J. Vazquez, Nicky Pochinkov, Tomáš Gavenčiak, Peli Grietzer, Gavin Leech, Nandi Schoots,
- Abstract要約: トレーニングデータがベンチマークデータで汚染される場合、ベンチマークパフォーマンスは、アウト・オブ・ディストリビューション(OOD)の一般化のバイアス付き見積もりを与える。
意味的重複による訓練データのソフトな汚染について検討する。
ソフト汚染の頻度は、真の能力向上とテストデータの蓄積と、トレーニングコーパスの成長における効果的なテストデータの両方を反映する。
- 参考スコア(独自算出の注目度): 0.974291144686732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If LLM training data is polluted with benchmark test data, then benchmark performance gives biased estimates of out-of-distribution (OOD) generalization. Typical decontamination filters use n-gram matching which fail to detect semantic duplicates: sentences with equivalent (or near-equivalent) content that are not close in string space. We study this soft contamination of training data by semantic duplicates. Among other experiments, we embed the Olmo3 training corpus and find that: 1) contamination remains widespread, e.g. we find semantic duplicates for 78% of CodeForces and exact duplicates for 50% of ZebraLogic problems; 2) including semantic duplicates of benchmark data in training does improve benchmark performance; and 3) when finetuning on duplicates of benchmark datapoints, performance also improves on truly-held-out datapoints from the same benchmark. We argue that recent benchmark gains are thus confounded: the prevalence of soft contamination means gains reflect both genuine capability improvements and the accumulation of test data and effective test data in growing training corpora.
- Abstract(参考訳): LLMトレーニングデータがベンチマークテストデータで汚染されると、ベンチマーク性能はアウト・オブ・ディストリビューション(OOD)の一般化のバイアスのある推定値を与える。
典型的な除染フィルタはn-gramマッチングを用いており、これは意味的な重複を検出するのに失敗している。
意味的重複による訓練データのソフトな汚染について検討する。
実験の中には、Olmo3トレーニングコーパスを埋め込んで、次のようなものを見つけます。
例えば、CodeForcesの78%のセマンティック複製と、ZebraLogicの問題の50%の正確な複製です。
2) トレーニングにおけるベンチマークデータの意味的重複を含むと、ベンチマークのパフォーマンスが向上する。
3) ベンチマークデータポイントの重複を微調整すると、同じベンチマークから真に保持されたデータポイントのパフォーマンスも向上する。
ソフト汚染の頻度は、真の能力向上とテストデータの蓄積と、トレーニングコーパスの成長における効果的なテストデータの両方を反映する。
関連論文リスト
- Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation [6.4212082894269535]
既存のリーク検出技術である置換法とn-gram法を比較した。
解析の結果,n-gram法は高いF1スコアが得られることがわかった。
MMLUとHellaSwagのクリーンバージョンを作成し、複数のLLMを再評価する。
論文 参考訳(メタデータ) (2025-05-30T06:37:39Z) - Benchmark Inflation: Revealing LLM Performance Gaps Using Retro-Holdouts [0.6282171844772422]
多くのLarge Language Models(LLM)のトレーニングデータは、テストデータによって汚染される。
公開ベンチマークスコアは必ずしもモデルプロパティを正確に評価するとは限らない。
論文 参考訳(メタデータ) (2024-10-11T20:46:56Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。