論文の概要: The Reliability Gap in Benchmark Auditing: Distribution Shift and Scale as Failure Modes of Contamination Detection
- arxiv url: http://arxiv.org/abs/2606.03305v1
- Date: Tue, 02 Jun 2026 08:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.859928
- Title: The Reliability Gap in Benchmark Auditing: Distribution Shift and Scale as Failure Modes of Contamination Detection
- Title(参考訳): ベンチマーク監査における信頼性向上:汚染検出の障害モードとしての分布変化とスケール
- Authors: Wojciech Zarzecki, Jan Dubiński, Sebastian Cygert,
- Abstract要約: トレーニングデータメンバーシップを検出する統計ツールは存在するが、ほとんど制御された学術体制でのみ検証されている。
分散シフトとスケール制約という,未調査の2つの障害モードを特定します。
335点中199点しか正しい結果が得られていない。
- 参考スコア(独自算出の注目度): 4.921591758479804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmark contamination, where evaluation examples appear in a model's training data, threatens the validity of LLM assessment. Statistical tools for detecting training-data membership exist, but have been validated almost exclusively in controlled academic regimes: large, homogeneous pre-training corpora and transparent, single-stage training pipelines. Whether these methods remain reliable in realistic auditing scenarios remains unclear. We identify two under-studied failure modes: distribution shift, which arises when suspect and validation sets violate the IID assumption, and scale constraints, which arise because benchmarks are orders of magnitude smaller than pre-training corpora. We systematically evaluate three leading paradigms: LLM Dataset Inference, Post-Hoc Dataset Inference, and CoDeC across 27 models from multiple families (including Pythia, OLMo~2, and specialised cultural and medical LLMs) and scales (up to 27B). We then further extend our analysis to frontier industry models. Across 335 evaluations, only 199 yield correct outcomes. LLM Dataset Inference results in false positives under distribution shift, Post-Hoc Dataset Inference is underpowered at benchmark scale, and CoDeC provides only coarse provenance signals that are insufficient to verify individual benchmark splits. Our results reveal a systematic reliability gap between controlled validation and practical benchmark auditing, and show that statistical detection cannot yet replace transparent data provenance. We open-source our benchmark for further research.
- Abstract(参考訳): モデルのトレーニングデータに評価例が現れるベンチマーク汚染は、LCM評価の有効性を脅かす。
トレーニングデータメンバーシップを検出するための統計ツールは存在するが、大で均一な事前学習コーパスと透明で単一ステージのトレーニングパイプラインという、制御された学術的体制において、ほぼ独占的に検証されている。
これらの手法が現実的な監査シナリオで信頼性を維持しているかどうかは不明だ。
被疑者および検証セットがIDIの仮定に違反した場合に発生する分散シフトと、ベンチマークが事前学習コーパスよりも桁違いに小さいために発生するスケール制約の2つの未調査障害モードを同定する。
我々は,LLMデータセット推論,ポストホックデータセット推論,CoDeCの3つの主要なパラダイムを,複数のファミリー(Pythia,OLMo~2,文化・医療LLMの専門化)とスケール(最大27B)で体系的に評価した。
そして、分析をさらにフロンティア産業モデルに拡張します。
335点中199点しか正しい結果が得られていない。
LLMデータセット推論は、分散シフトの下で偽陽性となり、ポストホックデータセット推論はベンチマークスケールで過小評価され、CoDeCは個々のベンチマーク分割を検証するのに不十分な粗い前兆信号のみを提供する。
この結果から,制御された検証と実際のベンチマーク監査の体系的な信頼性のギャップが明らかとなり,統計的検出がまだ透過的なデータ証明に取って代わることができないことが示唆された。
さらなる研究のためのベンチマークをオープンソースにしています。
関連論文リスト
- Discovery of Hidden Miscalibration Regimes [52.452902154360565]
モデルは何らかの入力を体系的に過信し、他人を過信することがある。
対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。
提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
論文 参考訳(メタデータ) (2026-05-13T13:07:50Z) - A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering [19.55210880950831]
予測されたモデルの信頼度がその経験的精度と一致しているかを測り、大規模言語モデル(LLM)の信頼性デプロイメントの中心となる。
オープンエンド質問応答(QA)のための校正評価フレームワークSem-ECEを紹介する。
フレームワーク内の2つの推定器について検討する。同じサンプルの自己整合性スコアであるSem$-ECEと、自信評価から回答の選択を分離する保留変数であるSem$-ECEである。
論文 参考訳(メタデータ) (2026-05-08T19:53:49Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Certified Self-Consistency: Statistical Guarantees and Test-Time Training for Reliable Reasoning in LLMs [4.829906774017035]
本稿では,大規模言語モデルにおける認証推論のための統一フレームワークを提案する。
多数決は自己整合性の統計的証明を提供することを示す。
さらに,TTRLのようなラベルなしのポストトレーニング手法が,回答分布を暗黙的に鋭くすることを示す。
論文 参考訳(メタデータ) (2025-10-20T12:14:12Z) - Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions [20.51842378080194]
大規模言語モデル(LLM)は、様々なベンチマークで優れた性能を示し、汎用的なタスクソルバとしての可能性を示している。
LLMは典型的には大量のデータに基づいて訓練されるため、その評価において重要な関心事はデータ汚染である。
データ汚染検出に関する50の論文を体系的にレビューし、基礎となる仮定を分類し、厳格に検証されたかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-24T17:58:22Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。