論文の概要: On The Fragility of Benchmark Contamination Detection in Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.02386v1
- Date: Tue, 30 Sep 2025 21:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.066478
- Title: On The Fragility of Benchmark Contamination Detection in Reasoning Models
- Title(参考訳): 推論モデルにおけるベンチマーク汚染検出の脆弱性について
- Authors: Han Wang, Haoyu Li, Brian Ko, Huan Zhang,
- Abstract要約: LRMのリーダーボードは、評価を競合に転換し、開発者がベンチマークスイート上で直接最適化するインセンティブを与えている。
より高いランキングを達成するためのショートカットは、評価ベンチマークをトレーニングデータに組み込むことで、ベンチマーク汚染と呼ばれる膨らませたパフォーマンスを得る。
LRMに対する汚染検出の回避は極めて容易であることが判明した。
- 参考スコア(独自算出の注目度): 20.455365567122985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leaderboards for LRMs have turned evaluation into a competition, incentivizing developers to optimize directly on benchmark suites. A shortcut to achieving higher rankings is to incorporate evaluation benchmarks into the training data, thereby yielding inflated performance, known as benchmark contamination. Surprisingly, our studies find that evading contamination detections for LRMs is alarmingly easy. We focus on the two scenarios where contamination may occur in practice: (I) when the base model evolves into LRM via SFT and RL, we find that contamination during SFT can be originally identified by contamination detection methods. Yet, even a brief GRPO training can markedly conceal contamination signals that most detection methods rely on. Further empirical experiments and theoretical analysis indicate that PPO style importance sampling and clipping objectives are the root cause of this detection concealment, indicating that a broad class of RL methods may inherently exhibit similar concealment capability; (II) when SFT contamination with CoT is applied to advanced LRMs as the final stage, most contamination detection methods perform near random guesses. Without exposure to non-members, contaminated LRMs would still have more confidence when responding to those unseen samples that share similar distributions to the training set, and thus, evade existing memorization-based detection methods. Together, our findings reveal the unique vulnerability of LRMs evaluations: Model developers could easily contaminate LRMs to achieve inflated leaderboards performance while leaving minimal traces of contamination, thereby strongly undermining the fairness of evaluation and threatening the integrity of public leaderboards. This underscores the urgent need for advanced contamination detection methods and trustworthy evaluation protocols tailored to LRMs.
- Abstract(参考訳): LRMのリーダーボードは、評価を競合に転換し、開発者がベンチマークスイート上で直接最適化するインセンティブを与えている。
より高いランキングを達成するためのショートカットは、評価ベンチマークをトレーニングデータに組み込むことで、ベンチマーク汚染と呼ばれる膨らませたパフォーマンスを得る。
驚くべきことに、我々の研究は、LEMの汚染検出を回避することは驚くほど容易であることがわかった。
I) ベースモデルが SFT と RL を介して LRM に進化すると, SFT における汚染を汚染検出法によって同定できることが判明した。
しかし、短時間のGRPOトレーニングでさえ、ほとんどの検出方法が依存している汚染信号を著しく隠蔽することができる。
さらに実験的な実験と理論解析により、PPOスタイルの重要度サンプリングとクリッピングの目的がこの検出隠蔽の根本原因であることが示され、広範囲のRL法が本質的に類似した隠蔽能力を示す可能性があることが示され、(II)CoTによるSFT汚染が最終段階として先進的なLRMに適用された場合、ほとんどの汚染検出手法がほぼランダムな推測を行う。
非メンバーに曝露しなければ、トレーニングセットに類似した分布を共有する未確認のサンプルに応答すると、汚染されたLEMはより信頼性が高くなり、既存の記憶に基づく検出方法を回避することができる。
モデル開発者は、最小限の汚染の痕跡を残しながら、RTMを簡易に汚染し、その結果、評価の公平さを損なうとともに、公衆のリーダーボードの完全性を脅かすことができる。
このことは、先進的な汚染検出方法と、LEMに合わせた信頼性の高い評価プロトコルの緊急の必要性を浮き彫りにしている。
関連論文リスト
- Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis [43.58944424023784]
我々は汚染されたモデル自体のメカニズムを解析することで汚染に対処することを目指している。
本稿では,ショートカットニューロンを比較解析と因果解析により同定する手法を提案する。
汚染軽減のためのアプローチの有効性を実験により検証した。
論文 参考訳(メタデータ) (2025-06-04T16:33:44Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。