論文の概要: On Meta-Evaluation
- arxiv url: http://arxiv.org/abs/2601.14262v1
- Date: Thu, 27 Nov 2025 06:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.810287
- Title: On Meta-Evaluation
- Title(参考訳): メタ評価について
- Authors: Hongxiao Li, Chenxi Wang, Fanda Fan, Zihan Wang, Wanling Gao, Lei Wang, Jianfeng Zhan,
- Abstract要約: 観察研究、実験の設計(DoE)、ランダム化制御試験(RCT)といった手法は現代の科学的実践を形作っている。
評価空間,その構造的表現,および我々がAxiaBenchと呼ぶベンチマークを定義することで,メタ評価のための公式なフレームワークを導入する。
AxiaBenchは、8つの代表的なアプリケーションドメインで広く使用されている10の評価手法を、初めて大規模で定量的に比較することを可能にする。
- 参考スコア(独自算出の注目度): 11.44925492599594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluation is the foundation of empirical science, yet the evaluation of evaluation itself -- so-called meta-evaluation -- remains strikingly underdeveloped. While methods such as observational studies, design of experiments (DoE), and randomized controlled trials (RCTs) have shaped modern scientific practice, there has been little systematic inquiry into their comparative validity and utility across domains. Here we introduce a formal framework for meta-evaluation by defining the evaluation space, its structured representation, and a benchmark we call AxiaBench. AxiaBench enables the first large-scale, quantitative comparison of ten widely used evaluation methods across eight representative application domains. Our analysis reveals a fundamental limitation: no existing method simultaneously achieves accuracy and efficiency across diverse scenarios, with DoE and observational designs in particular showing significant deviations from real-world ground truth. We further evaluate a unified method of entire-space stratified sampling from previous evaluatology research, and the results report that it consistently outperforms prior approaches across all tested domains. These results establish meta-evaluation as a scientific object in its own right and provide both a conceptual foundation and a pragmatic tool set for advancing trustworthy evaluation in computational and experimental research.
- Abstract(参考訳): 評価は経験科学の基礎であるが、評価そのもの、いわゆるメタ評価は、未だ著しく未発達である。
観察研究、実験の設計(DoE)、ランダム化制御試験(RCT)といった手法は現代の科学的実践を形作っているが、ドメイン間の比較妥当性と有用性について、体系的な調査はほとんど行われていない。
ここでは、評価空間、構造表現、およびAxiaBenchと呼ばれるベンチマークを定義することで、メタ評価のための正式なフレームワークを紹介する。
AxiaBenchは、8つの代表的なアプリケーションドメインで広く使用されている10の評価手法を、初めて大規模で定量的に比較することを可能にする。
既存の手法では,様々なシナリオにまたがって精度と効率を同時に達成することができず,特にDoEや観測設計は,現実世界の真実から大きく逸脱している。
さらに,従来の評価学研究から得られた全空間階層化サンプリングの統一的手法を評価した結果,全ての試験領域において従来手法より一貫して優れていたことが示唆された。
これらの結果は, 科学的対象としてのメタ評価を確立し, 計算および実験研究において, 信頼に値する評価を推し進めるための概念的基礎と実用的ツールセットを提供する。
関連論文リスト
- The Benchmarking Epistemology: Construct Validity for Evaluating Machine Learning Models [1.1315617886931963]
我々は心理的な測定理論に触発された構成妥当性の条件を策定する。
3つのケーススタディを通じて、これらの仮定を実際に検討する。
本フレームワークは,ベンチマークスコアが多様な科学的クレームをサポートする条件を明らかにする。
論文 参考訳(メタデータ) (2025-10-27T10:30:30Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [136.27567671480156]
先行テストからのフィードバックに基づいて仮説を優先順位付けする実験誘導ランキングを導入する。
我々は、シーケンシャルな意思決定問題として実験誘導型ランキングを定めている。
我々のアプローチは、実験前のベースラインと強い改善を著しく上回る。
論文 参考訳(メタデータ) (2025-05-23T13:24:50Z) - Make Full Use of Testing Information: An Integrated Accelerated Testing and Evaluation Method for Autonomous Driving Systems [6.065650382599096]
本稿では、自律運転システム(ADS)の試験・評価のための統合的加速テスト・評価手法(ITEM)を提案する。
本稿では,テスト情報を完全に活用するために,統合的高速化テスト・評価手法(ITEM)を提案する。
実験結果から,ITEMは危険領域の形状に関わらず,低次元,高次元ともに危険領域を同定できることがわかった。
論文 参考訳(メタデータ) (2025-01-21T06:59:25Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Evaluatology: The Science and Engineering of Evaluation [11.997673313601423]
本稿では,評価の科学と工学を包含する評価学の分野を正式に紹介することを目的とする。
本稿では,様々な分野にまたがって適用可能な概念,用語,理論,方法論を包含して評価するための普遍的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-19T13:38:26Z) - Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。