論文の概要: The Benchmarking Epistemology: Construct Validity for Evaluating Machine Learning Models
- arxiv url: http://arxiv.org/abs/2510.23191v1
- Date: Mon, 27 Oct 2025 10:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.601618
- Title: The Benchmarking Epistemology: Construct Validity for Evaluating Machine Learning Models
- Title(参考訳): ベンチマーク認識論:機械学習モデルを評価するための妥当性の構築
- Authors: Timo Freiesleben, Sebastian Zezulka,
- Abstract要約: 我々は心理的な測定理論に触発された構成妥当性の条件を策定する。
3つのケーススタディを通じて、これらの仮定を実際に検討する。
本フレームワークは,ベンチマークスコアが多様な科学的クレームをサポートする条件を明らかにする。
- 参考スコア(独自算出の注目度): 1.1315617886931963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive benchmarking, the evaluation of machine learning models based on predictive performance and competitive ranking, is a central epistemic practice in machine learning research and an increasingly prominent method for scientific inquiry. Yet, benchmark scores alone provide at best measurements of model performance relative to an evaluation dataset and a concrete learning problem. Drawing substantial scientific inferences from the results, say about theoretical tasks like image classification, requires additional assumptions about the theoretical structure of the learning problems, evaluation functions, and data distributions. We make these assumptions explicit by developing conditions of construct validity inspired by psychological measurement theory. We examine these assumptions in practice through three case studies, each exemplifying a typical intended inference: measuring engineering progress in computer vision with ImageNet; evaluating policy-relevant weather predictions with WeatherBench; and examining limitations of the predictability of life events with the Fragile Families Challenge. Our framework clarifies the conditions under which benchmark scores can support diverse scientific claims, bringing predictive benchmarking into perspective as an epistemological practice and a key site of conceptual and theoretical reasoning in machine learning.
- Abstract(参考訳): 予測ベンチマーク(英: Predictive benchmarking)は、予測性能と競合ランクに基づく機械学習モデルの評価であり、機械学習研究における中心的な疫学的な実践であり、科学的な調査の方法としてますます顕著になっている。
しかし、ベンチマークスコアだけでは、評価データセットと具体的な学習問題に対するモデルパフォーマンスの最良の測定が得られます。
結果からかなりの科学的推測を導き、例えば画像分類のような理論的タスクは、学習問題の理論的構造、評価関数、データ分布に関する追加の仮定を必要とする。
心理的な測定理論に触発された構成的妥当性の条件を発達させることにより,これらの仮定を明確化する。
本稿では,3つのケーススタディを通じて,イメージネットを用いたコンピュータビジョンの工学的進歩の計測,ウェザーベンチによる政策関連気象予報の評価,フラジオール・ファミリー・チャレンジによる生活事象の予測可能性の限界の検証など,典型的な推論を実証する。
筆者らのフレームワークは,ベンチマークスコアが様々な科学的主張を裏付ける条件を明らかにし,予測ベンチマークを認識論的実践として,そして機械学習における概念的および理論的推論の要点として捉えた。
関連論文リスト
- From Black-box to Causal-box: Towards Building More Interpretable Models [57.23201263629627]
本稿では, 因果解釈可能性の概念を導入し, 特定のモデルのクラスから対実的クエリを評価できるときの形式化について述べる。
我々は、与えられたモデルアーキテクチャが与えられた偽物クエリをサポートするかどうかを決定する完全なグラフィカルな基準を導出する。
論文 参考訳(メタデータ) (2025-10-24T20:03:18Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - Measurement to Meaning: A Validity-Centered Framework for AI Evaluation [12.55408229639344]
我々は、利用可能な証拠から得られる評価的クレームのタイプを推論するための構造化されたアプローチを提供する。
私たちのフレームワークは、機械学習の現代的なパラダイムに適しています。
論文 参考訳(メタデータ) (2025-05-13T20:36:22Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Active Inference in Robotics and Artificial Agents: Survey and
Challenges [51.29077770446286]
我々は、状態推定、制御、計画、学習のためのアクティブ推論の最先端理論と実装についてレビューする。
本稿では、適応性、一般化性、堅牢性の観点から、その可能性を示す関連する実験を紹介する。
論文 参考訳(メタデータ) (2021-12-03T12:10:26Z) - A practical introduction to the Rational Speech Act modeling framework [2.1485350418225244]
計算認知科学の最近の進歩は、形式的で実装可能なプラグマティクスのモデルにおいて、大きな進歩の道を開いた。
本稿では,ベイズ合理音声法モデリングフレームワークの実践的紹介と批判的評価を行う。
論文 参考訳(メタデータ) (2021-05-20T16:08:04Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。