論文の概要: Silicon Bureaucracy and AI Test-Oriented Education: Contamination Sensitivity and Score Confidence in LLM Benchmarks
- arxiv url: http://arxiv.org/abs/2603.21636v2
- Date: Sat, 28 Mar 2026 13:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 13:48:18.774865
- Title: Silicon Bureaucracy and AI Test-Oriented Education: Contamination Sensitivity and Score Confidence in LLM Benchmarks
- Title(参考訳): シリコン官僚主義とAIテスト指向教育: LLMベンチマークにおける汚染感度とスコア信頼度
- Authors: Yiliang Song, Hongjun An, Jiangan Chen, Xuanchen Yan, Huan Song, Jiawei Shao, Xuelong Li,
- Abstract要約: 本稿では,言語モデルにおける汚染感度とスコア信頼度を解析するための監査フレームワークを提案する。
ノイズ条件下では, 広範に不均一なベースラインゲインが得られる。
これらの結果は、類似のベンチマークスコアが、かなり異なる信頼レベルを持つ可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 43.45152572188735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public benchmarks increasingly govern how large language models (LLMs) are ranked, selected, and deployed. We frame this benchmark-centered regime as Silicon Bureaucracy and AI Test-Oriented Education, and argue that it rests on a fragile assumption: that benchmark scores directly reflect genuine generalization. In practice, however, such scores may conflate exam-oriented competence with principled capability, especially when contamination and semantic leakage are difficult to exclude from modern training pipelines. We therefore propose an audit framework for analyzing contamination sensitivity and score confidence in LLM benchmarks. Using a router-worker setup, we compare a clean-control condition with noisy conditions in which benchmark problems are systematically deleted, rewritten, and perturbed before being passed downstream. For a genuinely clean benchmark, noisy conditions should not consistently outperform the clean-control baseline. Yet across multiple models, we find widespread but heterogeneous above-baseline gains under noisy conditions, indicating that benchmark-related cues may be reassembled and can reactivate contamination-related memory. These results suggest that similar benchmark scores may carry substantially different levels of confidence. Rather than rejecting benchmarks altogether, we argue that benchmark-based evaluation should be supplemented with explicit audits of contamination sensitivity and score confidence.
- Abstract(参考訳): 公開ベンチマークは、大規模言語モデル(LLM)のランク付け、選択、デプロイの方法をますます支配している。
私たちはこのベンチマーク中心の体制を、シリコン官僚主義とAIテスト指向の教育とみなし、それは脆弱な仮定に基づいている、と論じています。
しかし、このようなスコアは、特に汚染やセマンティックリークが近代的な訓練パイプラインから除外するのが困難である場合に、試験指向の能力と原則的能力とを区別する可能性がある。
そこで本研究では,LLMベンチマークにおける汚染感度とスコア信頼度を解析するための監査フレームワークを提案する。
ルータ・ワーカのセットアップを用いて、下流を通過する前に、ベンチマークの問題を系統的に削除、書き直し、摂動するノイズのある条件と比較する。
真にクリーンなベンチマークでは、ノイズの多い条件はクリーンコントロールベースラインを一貫して上回るべきではない。
しかし,複数のモデルにまたがって,騒音条件下では広範にヘテロジニアスな上ベースラインゲインが得られ,ベンチマーク関連キューが再組み立てされ,汚染関連メモリが再活性化される可能性が示唆された。
これらの結果は、類似のベンチマークスコアが、かなり異なる信頼レベルを持つ可能性があることを示唆している。
ベンチマークを全面的に拒否するのではなく、ベンチマークに基づく評価は、汚染感度とスコア信頼性の明確な監査で補足されるべきである、と論じる。
関連論文リスト
- DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality [49.62610727661819]
既存のファクトチェッカーは主に汎用ドメイン、ファクトイドスタイルの原子クレーム用に設計されている。
本稿では,ベンチマークラベルと有理値が明示的に変更可能なAudit-then-Score (AtS)を提案する。
我々は、AtSを、監査可能な有理量を持つDRR事実性ベンチマークであるDeepFact-Benchとしてインスタンス化する。
論文 参考訳(メタデータ) (2026-03-06T05:05:57Z) - When Benchmarks Leak: Inference-Time Decontamination for LLMs [4.071875179293035]
DeconIEPは入力埋め込み空間に小さな有界摂動を適用することにより、評価中に完全に動作する。
入力埋め込み空間に小さな有界摂動を適用することで、評価中に完全に動作する除染フレームワークであるDeconIEPを提案する。
論文 参考訳(メタデータ) (2026-01-27T08:19:40Z) - When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity [21.192000569821943]
我々は、厳密な目標と検証可能な構成がなければ、ベンチマークのランキングは、ほぼノイズの多い高信頼度ランキングを生成することができると論じる。
本稿では,Arena-Hard Autoが使用するELOスタイルのアグリゲーションが崩壊し,真のランキングの不確かさをマスクすることを示す。
我々の結果は、妥当性を損なう設計上の失敗を強調し、より良いスコープで信頼性に配慮したベンチマークを構築するための実用的な原則を提供する。
論文 参考訳(メタデータ) (2025-09-24T16:26:47Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。