論文の概要: The Evaluation Blind Spot: A Stereological Theory of Benchmark Coverage for Large Language Models
- arxiv url: http://arxiv.org/abs/2606.05169v1
- Date: Wed, 15 Apr 2026 08:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.618145
- Title: The Evaluation Blind Spot: A Stereological Theory of Benchmark Coverage for Large Language Models
- Title(参考訳): 評価ブラインドスポット:大規模言語モデルにおけるベンチマークカバレッジのステレオロジー理論
- Authors: Jason Z Wang,
- Abstract要約: 実証的に、3つの独立したリーダーボード(Open LLM v2、拡張12ベンチマークスイート、LiveBench)は、いずれも[2.86, 4.80]のd_effを持つ。
Nemhauser (1 − 1/e) 保証付き部分モジュラーグリードアルゴリズムは、4つのベンチマークの安定なコアを見つける。
12のベンチマークと27のカテゴリの反実的な検証では、固有構造がどの評価が置き換えられないかを予測している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We give a stereological theory of LLM benchmark coverage. For any suite with effective dimensionality d_eff, the visible Hausdorff distance between two convex capability profiles consistent with the same scores is bounded by epsilon + C R m^(-1/(d_eff-1)), with matching Lipschitz lower bound. Empirically, three independent leaderboards (Open LLM v2, an extended 12-benchmark suite, LiveBench) all have d_eff in [2.86, 4.80] on their competitive frontier; the structural blind spot exceeds the observed runner-up score gap by two orders of magnitude and dominates statistical noise by 52-127x. Under a chi-squared projection model, the isotropic prior is the optimistic case; across six hidden-capability priors and four ambient dimensions the simulated half-split swap rate of the top two models stays in [0.38, 0.49], and a 500-trial random visible/held-out split shows that 92% of trials swap the top-1 ranking with on average 2.83 of 5 top-5 models changing. A submodular greedy algorithm with the Nemhauser (1 - 1/e) guarantee finds a stable core of 4 benchmarks; 7 of 12 suffice for 90% coverage, and the trained subset transfers across temporal quarters with 93-97% retention. A counterfactual validation across 12 internal benchmarks and 27 Chatbot Arena categories confirms that the eigenstructure predicts which evaluations are irreplaceable (rho = -0.69, p = 0.013 for removal disruption) and which external evaluations bring new information (rho = +0.38). As a second, independent theoretical contribution, we resolve Gardner's Problem 1.5 (1995) for C^2 support functions, establishing the minimax rate Theta(R/(kappa m^(2/(D-1)))) in general dimension via optimal recovery theory on S^(D-1).
- Abstract(参考訳): LLMベンチマークの立体理論について述べる。
有効次元 d_eff を持つ任意のスイートに対して、同じスコアと一致する二つの凸函数プロファイルの間の可視ハウスドルフ距離は、エプシロン + C R m^(-1/(d_eff-1)) と一致するリプシッツの下界で有界である。
実験的に、3つの独立したリーダーボード(Open LLM v2、拡張12ベンチマークスイート、LiveBench)は、それぞれ、[2.86, 4.80]にd_effを持つ。
擬似半分割スワップレートは、[0.38, 0.49] に留まり、500-trial random visible/held-out split は、試験の92%がトップ1ランキングを平均2.83で変更していることを示している。
Nemhauser (1 - 1/e) 保証付き部分モジュラーグリードアルゴリズムは、4つのベンチマークの安定なコア、90%のカバレッジで12のサフィス、7のトレーニングされたサブセットが93-97%の保持率を持つ時間帯にわたって転送される。
12の内部ベンチマークと27のChatbot Arenaカテゴリの反実的検証により、固有構造がどの評価が非置換可能か(rho = -0.69, p = 0.013)、どの外部評価が新しい情報をもたらすか(rho = +0.38)が確認できる。
2つ目の独立な理論的貢献として、ガードナーの C^2 の支持関数に対する問題 1.5 (1995) を解き、S^(D-1) 上の最適回復理論を通じて、一般次元におけるミニマックスレート Theta(R/(kappa m^(2/(D-1)))) を確立する。
関連論文リスト
- Knowledge Index of Noah's Ark [63.143852586221534]
KINAは,261分野にわたる899項目のベンチマークである。
ボーナス・オン・バートーナメントがFOSDを弱く支配していることを示す。
トップモデルであるGemini-3.1-Pro-Previewは53.17%、Claude-Opus-4.6は49.92%、GPT-5.4は48.55%に達した。
論文 参考訳(メタデータ) (2026-06-03T17:06:49Z) - Resolution Diagnostics for Paired LLM Evaluation [0.0]
オープンLLM リーダーボード v1 対比較40点中11点, MMLU-Pro 上位10点中4点を (アルファ, 1-β) = (0.05, 0.8) で未解決であることを示す。
MMLU-Proの数は実際の対象レベルのクラスタリングで6/9まで上昇し、99.9%のカテゴリブートストラップの再サンプリングで9のうち5-6に留まる。
論文 参考訳(メタデータ) (2026-05-28T17:54:09Z) - Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Slum Detection and Density Mapping with AlphaEarth Foundations: A Representation Learning Evaluation Across 12 Global Cities [9.982796078979648]
画素レベルのスラムマッピングは、長い間、限られた都市間一般化によって制約されてきた。
AlphaEarth Foundationsは、軽量スラムモニタリングのための新しい分析可能なベースを提供する。
我々は,12都市と69都市年対のスラム分類とサブピクセル密度推定についてAFFを評価した。
論文 参考訳(メタデータ) (2026-05-11T05:54:15Z) - Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation [0.0]
政策シミュレーションにおいて,大規模言語モデル(LLM)を用いたマルチエージェント検討システムの提案が進んでいる。
評価エージェントは、割り当てられた値の観点に関わらず、同じ選択肢に収束する。
我々は、三段階の審議フレームワークであるAI Councilを提示し、2つの介入をテストするための2つの政策シナリオにわたる120の審議を行う。
論文 参考訳(メタデータ) (2026-04-29T11:47:28Z) - Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment [53.72927532626824]
わずか50個のサンプル(0.3%のデータ)のサブセットは、完全なベンチマークスコアと0.93以上のピアソン相関を達成可能であることを示す。
選好をより良く予測するために、選択したサブセットの回帰モデルを訓練し、0.98の相関を達成した。
これは回帰モデリングにおいて、よく計算されたサブセットが完全なベンチマークを予測し、量を超える品質を示すことを示している。
論文 参考訳(メタデータ) (2026-04-20T00:57:31Z) - Greedy Is a Strong Default: Agents as Iterative Optimizers [0.22843885788439797]
ランダムな提案生成装置をLCMエージェントに置き換え、評価診断を理由として情報付き候補を提案する。
離散的,混合的,連続的な検索空間にまたがる4つのタスクを評価する。
論文 参考訳(メタデータ) (2026-03-28T21:26:40Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。