論文の概要: AI Cartography: Mapping the Latent Landscape of AI Benchmark Ecosystems
- arxiv url: http://arxiv.org/abs/2605.25272v1
- Date: Sun, 24 May 2026 21:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.057262
- Title: AI Cartography: Mapping the Latent Landscape of AI Benchmark Ecosystems
- Title(参考訳): AIカルトグラフィ:AIベンチマークエコシステムの潜在的景観をマッピングする
- Authors: Michael Hardy, Anka Reuel, Lijin Zhang, Jodi M. Casabianca, Sang Truong, Yash Dave, Hansol Lee, Benjamin Domingue, Sanmi Koyejo,
- Abstract要約: AIベンチマークエコシステムの潜伏状況を測定するためのフレームワークを紹介します。
The Open LLM Leaderboardから4000以上のモデルに確認因子分析(CFA)と一般化可能性理論を適用して、ランキング分散の源泉を分解する。
ベンチマークランキングをどのように信頼するか、ベンチマーク設計をどのように改善できるかを判断するために、実行可能な診断を提供する。
- 参考スコア(独自算出の注目度): 20.174278188532096
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While aggregate leaderboard scores drive AI development, they contain substantial measurement noise whose sources and magnitudes remain unquantified, making it unclear when rankings reflect genuine capability differences versus evaluation artifacts. We introduce a framework for measuring the latent landscape in AI benchmark ecosystems. Applying Confirmatory Factor Analysis (CFA) and Generalizability Theory to 4,000+ models from the Open LLM Leaderboard, we decompose sources of ranking variance and establish: (1) structures assumed in current reporting practice underestimate the strength of relationships between benchmarks; (2) evidence of local dependence among leaderboard items, undermining uses of benchmarks as measurement instruments under current scoring systems; (3) contributor metadata explains more rank-relevant variance ($\approx9\%$) than architecture or deployment categories in this context; (4) a manifest-score "scaling law" slope has low reliability ($R_β=0.53$); by contrast, the latent general-factor size slope is highly stable across ecosystem controls ($R_g=0.97$). We are able to provide unique insights into benchmark dynamics, such as which benchmarks are a function of LLM size and which can be oppositely impacted by post-training practices. We provide actionable diagnostics to determine how benchmark rankings can be trusted and how benchmark design can be improved.
- Abstract(参考訳): 総合的なリーダーボードスコアがAI開発を促進する一方で、ソースとマグニチュードが不適切なままであるかなりの測定ノイズが含まれており、ランキングが真の能力差と評価成果物とを反映しているかどうかが不明である。
AIベンチマークエコシステムの潜伏状況を測定するためのフレームワークを紹介します。
CFA(Confirmatory Factor Analysis)とGeneralizability Theory(Generalizability Theory)をOpen LLM Leaderboardから4000以上のモデルに適用し、(1)現在のレポートで仮定された構造がベンチマーク間の関係の強さを過小評価している、(2)リーダーボード項目間の局所的依存の証拠が現在の評価システムにおける測定指標としての使用を損なう、(3)コントリビュータメタデータがアーキテクチャやデプロイメントカテゴリよりも多くのランク関連分散(\approx9\%$)を説明する、(4)マニフェストスコアの「スケーリング法」斜面の信頼性が低い(R_β=0.53$)、(R_g=0.97)。
ベンチマークはLLMサイズの関数であり、トレーニング後のプラクティスの影響を受けないような、ベンチマークのダイナミクスに関するユニークな洞察を提供することができます。
ベンチマークランキングをどのように信頼するか、ベンチマーク設計をどのように改善できるかを判断するために、実行可能な診断を提供する。
関連論文リスト
- When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation [80.66788281323414]
主要モデル開発者のテクニカルレポートから選択した60のLarge Language Model (LLM)ベンチマークのベンチマーク飽和を分析した。
分析の結果、ベンチマークのほぼ半数が飽和しており、ベンチマークの年齢とともに上昇していることがわかった。
専門家によるベンチマークは、クラウドソースのベンチマークよりも飽和に抵抗する。
論文 参考訳(メタデータ) (2026-02-18T16:51:37Z) - ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs [37.23311145049677]
本稿では,機能異方性(Capability Anisotropy)を診断するためのスケーラブルなシステムであるReLEを提案する。
我々は,207,843サンプルからなる領域$times$ Capability SymbolicMatrixの304モデルを評価した。
論文 参考訳(メタデータ) (2026-01-24T09:57:59Z) - Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Uncovering Competency Gaps in Large Language Models and Their Benchmarks [11.572508874955659]
本稿では,スパースオートエンコーダ(SAE)を用いて,両方のギャップを自動的に発見する手法を提案する。
我々は、モデルが、サイコファンティックな振る舞いとは対照的な概念に一貫して劣っていることを発見した。
提案手法は,ベンチマークスコアの概念レベルの分解を可能にするため,評価のための表現的アプローチを提供する。
論文 参考訳(メタデータ) (2025-12-06T17:39:47Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks [32.00464870277127]
本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
論文 参考訳(メタデータ) (2025-09-30T02:14:30Z) - NAIPv2: Debiased Pairwise Learning for Efficient Paper Quality Estimation [58.30936615525824]
本稿では,紙の品質評価のための非バイアスで効率的なフレームワークであるNAIPv2を提案する。
NAIPv2は、レビューアレーティングの不整合を低減するために、ドメイン年グループ内でペアワイズ学習を採用している。
これはペアワイズ比較に基づいてトレーニングされるが、デプロイ時に効率的なポイントワイズ予測を可能にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。
パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文 参考訳(メタデータ) (2025-09-23T15:32:47Z) - Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。