論文の概要: Position: Science of AI Evaluation Requires Item-level Benchmark Data
- arxiv url: http://arxiv.org/abs/2604.03244v1
- Date: Fri, 27 Feb 2026 04:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.350213
- Title: Position: Science of AI Evaluation Requires Item-level Benchmark Data
- Title(参考訳): ポジション: アイテムレベルのベンチマークデータを必要とするAI評価の科学
- Authors: Han Jiang, Susu Zhang, Xiaoyuan Yi, Xing Xie, Ziang Xiao,
- Abstract要約: 我々は、AI評価の厳密な科学を確立するためには、アイテムレベルのAIベンチマークデータが不可欠であると主張している。
コミュニティ全体の採用を促進するため、アイテムレベルのベンチマークデータの増大するレポジトリであるOpenEvalを紹介します。
- 参考スコア(独自算出の注目度): 42.82377343454172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI evaluations have become the primary evidence for deploying generative AI systems across high-stakes domains. However, current evaluation paradigms often exhibit systemic validity failures. These issues, ranging from unjustified design choices to misaligned metrics, remain intractable without a principled framework for gathering validity evidence and conducting granular diagnostic analysis. In this position paper, we argue that item-level AI benchmark data is essential for establishing a rigorous science of AI evaluation. Item-level analysis enables fine-grained diagnostics and principled validation of benchmarks. We substantiate this position by dissecting current validity failures and revisiting evaluation paradigms across computer science and psychometrics. Through illustrative analyses of item properties and latent constructs, we demonstrate the unique insights afforded by item-level data. To catalyze community-wide adoption, we introduce OpenEval, a growing repository of item-level benchmark data designed supporting evidence-centered AI evaluation.
- Abstract(参考訳): AI評価は、高い領域にまたがって生成的なAIシステムをデプロイする主要な証拠となっている。
しかし、現在の評価パラダイムは、しばしばシステム的妥当性の欠陥を示す。
これらの問題は、不正な設計の選択から、不一致のメトリクスまで、検証証拠を集め、詳細な診断を行うための原則的な枠組みがなければ、解決不可能なままである。
本稿では,AI評価の厳密な科学を確立するためには,項目レベルのAIベンチマークデータが必要であると論じる。
項目レベルの分析は、ベンチマークの詳細な診断と原則による検証を可能にする。
我々は、現在の妥当性の欠陥を解き明かし、コンピュータ科学と心理測定学にまたがる評価パラダイムを再考することによって、この立場を裏付ける。
アイテムの特性と潜在構造を図解的に分析することにより、アイテムレベルのデータによって得られるユニークな洞察を実証する。
コミュニティ全体の採用を促進するために,エビデンス中心のAI評価をサポートするように設計された項目レベルのベンチマークデータのリポジトリであるOpenEvalを紹介した。
関連論文リスト
- DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - Identity Card Presentation Attack Detection: A Systematic Review [7.7489419818764596]
ディープ・ラーニングはプレゼンテーション・アタック検出の進歩を推進した。
この分野は、データの欠如とモデルの一般化の貧弱により、基本的に制限されている。
本稿では,本研究の成果を整理し,重要な研究ギャップを特定し,今後の研究の規範的ロードマップを概説する。
論文 参考訳(メタデータ) (2025-11-08T15:55:37Z) - Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。
ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文 参考訳(メタデータ) (2025-06-30T13:57:28Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。