論文の概要: Position: State-of-the-Art Claims Require State-of-the-Art Evidence
- arxiv url: http://arxiv.org/abs/2605.17273v2
- Date: Sun, 24 May 2026 15:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.569568
- Title: Position: State-of-the-Art Claims Require State-of-the-Art Evidence
- Title(参考訳): 位置: 現時点の主張は、現時点の証拠を必要とする
- Authors: YongKyung Oh,
- Abstract要約: State-of-the-Art(SOTA)は、AI(Pervade Artificial Intelligence)とML(Machine Learning)の研究を主張している。
これらの主張は、モデルがタスクの合計スコアによってランク付けされるベンチマーク評価に依存している。
AIベンチマークにおいて、幅広いクレーム・エビデンスギャップを識別する。
我々は、主張言語は根底にある証拠の強さを反映すべきであると主張する。
- 参考スコア(独自算出の注目度): 7.225436467899107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-Art (SOTA) claims pervade Artificial Intelligence (AI) and Machine Learning (ML) research. These claims rest on benchmark evaluations, where models are ranked by aggregate scores across tasks. Public benchmarks or leaderboards are the most visible instance, but the same structure appears in paper tables throughout the literature. However, such minimal evidence often cannot support these strong claims. We identify a widespread claim-evidence gap in AI benchmarking. Claiming SOTA carries implicit assumptions beyond mean score superiority, suggesting that a model meaningfully outperforms alternatives across most tasks. However, a marginal improvement in the mean score merely indicates a top average rank rather than true superiority. Analyzing ten cross-domain benchmarks from public leaderboards, we found that in more than half of top-model comparisons, at least one commonly assumed property of superiority does not hold. These properties include meaningful effect size, consistency across tasks, or robustness to dataset removal. Instead, aggregate gains are frequently driven by outlier datasets. This fragility persists even in benchmarks with many tasks. We argue that claim language should reflect the strength of the underlying evidence. This requires no additional experiments, only honest reporting of what results actually show, enabling more precise and interpretable comparisons across models.
- Abstract(参考訳): State-of-the-Art(SOTA)は、AI(Pervade Artificial Intelligence)とML(Machine Learning)の研究を主張している。
これらの主張は、モデルがタスクの合計スコアによってランク付けされるベンチマーク評価に依存している。
公開ベンチマークやリーダーボードは最も目に見える例だが、同じ構造が文献のあらゆる紙の表に現れる。
しかし、このような最小限の証拠は、しばしばこれらの強い主張を裏付けることができない。
AIベンチマークにおいて、幅広いクレーム・エビデンスギャップを識別する。
SOTAの主張は、平均スコアの優越性を超えた暗黙の仮定を持ち、モデルがほとんどのタスクにおいて選択肢よりも有意義に優れていることを示唆している。
しかし、平均スコアの限界改善は、真の優越性ではなく、最高平均ランクを示すだけである。
パブリックなリーダーボードから10のクロスドメインベンチマークを分析したところ、トップモデルの比較の半数以上では、少なくとも1つ以上の優越性の仮定された特性は保たないことがわかった。
これらの特性には、意味のある効果のサイズ、タスク間の一貫性、データセットの削除に対する堅牢性が含まれる。
代わりに、アグリゲーションゲインは、しばしば外れ値データセットによって駆動される。
この脆弱性は多くのタスクを持つベンチマークでも持続する。
我々は、主張言語は根底にある証拠の強さを反映すべきであると主張する。
これは追加の実験を必要とせず、結果が実際に何を示すかを正直に報告するだけで、モデル間のより正確で解釈可能な比較を可能にします。
関連論文リスト
- When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation [80.66788281323414]
主要モデル開発者のテクニカルレポートから選択した60のLarge Language Model (LLM)ベンチマークのベンチマーク飽和を分析した。
分析の結果、ベンチマークのほぼ半数が飽和しており、ベンチマークの年齢とともに上昇していることがわかった。
専門家によるベンチマークは、クラウドソースのベンチマークよりも飽和に抵抗する。
論文 参考訳(メタデータ) (2026-02-18T16:51:37Z) - Uncovering Competency Gaps in Large Language Models and Their Benchmarks [11.572508874955659]
本稿では,スパースオートエンコーダ(SAE)を用いて,両方のギャップを自動的に発見する手法を提案する。
我々は、モデルが、サイコファンティックな振る舞いとは対照的な概念に一貫して劣っていることを発見した。
提案手法は,ベンチマークスコアの概念レベルの分解を可能にするため,評価のための表現的アプローチを提供する。
論文 参考訳(メタデータ) (2025-12-06T17:39:47Z) - Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。
パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文 参考訳(メタデータ) (2025-09-23T15:32:47Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。