論文の概要: What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities
- arxiv url: http://arxiv.org/abs/2509.19590v1
- Date: Tue, 23 Sep 2025 21:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.613731
- Title: What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities
- Title(参考訳): あなたのベンチマークは本当に何を計測する? AI能力のロバスト推論のためのフレームワーク
- Authors: Nathanael Jo, Ashia Wilson,
- Abstract要約: ベンチマークデータに対する生成モデルの評価は今や至るところで行われている。
しかし、懐疑論の高まりはその信頼性を取り巻く。
報告された正確さがモデルの性能を真に反映しているとどうやってわかるのか?
このステップは、推論として評価するための原則的なフレームワークを提案することで明確化します。
- 参考スコア(独自算出の注目度): 0.773472615056109
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluations of generative models on benchmark data are now ubiquitous, and their outcomes critically shape public and scientific expectations of AI's capabilities. Yet growing skepticism surrounds their reliability. How can we know that a reported accuracy genuinely reflects a model's true performance? Evaluations are often presented as simple measurements, but in reality they are inferences: to treat benchmark scores as evidence of capability is already to assume a theory of what capability is and how it manifests in a test. We make this step explicit by proposing a principled framework for evaluation as inference: begin from a theory of capability, and then derive methods for estimating it. This perspective, familiar in fields such as psychometrics, has not yet become commonplace in AI evaluation. As a proof of concept, we address a central challenge that undermines reliability: sensitivity to perturbations. After formulating a model of ability, we introduce methods that infer ability while accounting for uncertainty from sensitivity and finite samples, including an adaptive algorithm that significantly reduces sample complexity. Together, these contributions lay the groundwork for more reliable and trustworthy estimates of AI capabilities as measured through benchmarks.
- Abstract(参考訳): ベンチマークデータに対する生成モデルの評価は今や至るところで行われており、その結果はAIの能力に対する公的および科学的な期待を批判的に形作っている。
しかし、懐疑論の高まりはその信頼性を取り巻く。
報告された正確さがモデルの性能を真に反映しているとどうやってわかるのか?
ベンチマークスコアを能力の証拠として扱うことは、すでに、能力とそれがテストでどのように現れるかの理論を仮定している。
我々はこのステップを、推論として評価するための原則的なフレームワークを提案し、能力の理論から始まり、それを推定する手法を導出することで明確にする。
この視点は、サイコメトリックスのような分野に精通しており、AI評価においてまだ一般的ではない。
概念実証として,摂動に対する感受性という信頼性を損なう中心的な課題に対処する。
能力モデルを構築した後、感度と有限サンプルの不確かさを考慮して能力を推定する手法を導入し、サンプルの複雑さを著しく低減する適応アルゴリズムを含む。
これらのコントリビューションは、ベンチマークによって測定されたAI能力の信頼性と信頼性の高い見積の基礎となった。
関連論文リスト
- AICO: Feature Significance Tests for Supervised Learning [0.9474649136535703]
本稿では,任意の回帰アルゴリズムや分類アルゴリズムにおける入力特徴の影響を評価するために,モデルおよび分布に依存しない重要度テストを開発する。
我々は、この中央値に対して一様に強力でランダムな符号テストを構築し、特徴量と信頼区間を評価するための正確なp値を得る。
合成タスクの実験は、その統計的および計算上の利点を検証し、実世界のデータへの適用は、その実用性を示している。
論文 参考訳(メタデータ) (2025-06-29T21:15:40Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文 参考訳(メタデータ) (2024-06-07T20:25:05Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。