論文の概要: Measuring What AI Systems Might Do: Towards A Measurement Science in AI
- arxiv url: http://arxiv.org/abs/2603.00063v1
- Date: Tue, 10 Feb 2026 12:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.016246
- Title: Measuring What AI Systems Might Do: Towards A Measurement Science in AI
- Title(参考訳): AIシステムがすべきことを測定する - AIにおける計測科学を目指して
- Authors: Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz,
- Abstract要約: 能力、妥当性、スキル、価値、能力は、常に相互に使用され、観測可能なパフォーマンスと混同されます。
我々は、能力と妥当性は、反事実関係によって特徴づけられるシステムの安定した特徴である配置特性であると主張する。
- 参考スコア(独自算出の注目度): 19.687397197326817
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scientists, policy-makers, business leaders, and members of the public care about what modern artificial intelligence systems are disposed to do. Yet terms such as capabilities, propensities, skills, values, and abilities are routinely used interchangeably and conflated with observable performance, with AI evaluation practices rarely specifying what quantity they purport to measure. We argue that capabilities and propensities are dispositional properties - stable features of systems characterised by counterfactual relationships between contextual conditions and behavioural outputs. Measuring a disposition requires (i) hypothesising which contextual properties are causally relevant, (ii) independently operationalising and measuring those properties, and (iii) empirically mapping how variation in those properties affects the probability of the behaviour. Dominant approaches to AI evaluation, from benchmark averages to data-driven latent-variable models such as Item Response Theory, bypass these steps entirely. Building on ideas from philosophy of science, measurement theory, and cognitive science, we develop a principled account of AI capabilities and propensities as dispositions, show why prevailing evaluation practices fail to measure them, and outline what disposition-respecting, scientifically defensible AI evaluation would require.
- Abstract(参考訳): 科学者、政策立案者、ビジネスリーダー、そして現代の人工知能システムが何をするかについて公共の注意を払っている。
しかし、能力、正当性、スキル、価値、能力といった用語は、常に相互に使用され、観測可能なパフォーマンスと混ざり合っている。
機能と妥当性は、状況条件と行動出力の反実的関係によって特徴づけられるシステムの安定な特徴である、と我々は主張する。
配置を測定するには
i)どの文脈特性が因果関係があるかの仮説
二 独立してその特性を運用し、測定すること
三 それらの特性の変化が行動の確率にどのように影響するかを経験的にマッピングすること。
ベンチマーク平均からアイテム応答理論のようなデータ駆動の潜在変数モデルに至るまで、AI評価に対する支配的なアプローチは、これらのステップを完全に回避します。
科学哲学、測定理論、認知科学の思想に基づいて、AIの能力と正当性に関する原則的な説明を開発し、なぜ一般的な評価慣行がそれらを測定するのに失敗するのかを示し、どのように配置を尊重し、科学的に検証可能なAI評価が要求されるかを概説する。
関連論文リスト
- What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities [0.773472615056109]
ベンチマークデータに対する生成モデルの評価は今や至るところで行われている。
しかし、懐疑論の高まりはその信頼性を取り巻く。
報告された正確さがモデルの性能を真に反映しているとどうやってわかるのか?
このステップは、推論として評価するための原則的なフレームワークを提案することで明確化します。
論文 参考訳(メタデータ) (2025-09-23T21:29:04Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Predictable Artificial Intelligence [77.1127726638209]
本稿では予測可能なAIのアイデアと課題を紹介する。
それは、現在および将来のAIエコシステムの重要な妥当性指標を予測できる方法を探る。
予測可能性を達成することは、AIエコシステムの信頼、責任、コントロール、アライメント、安全性を促進するために不可欠である、と私たちは主張する。
論文 参考訳(メタデータ) (2023-10-09T21:36:21Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Evaluating Explainability in Machine Learning Predictions through Explainer-Agnostic Metrics [0.0]
我々は,モデル予測が説明できる範囲を定量化するために,6つの異なるモデルに依存しないメトリクスを開発した。
これらのメトリクスは、局所的な重要性、グローバルな重要性、代理予測など、モデル説明可能性のさまざまな側面を測定する。
分類と回帰タスクにおけるこれらのメトリクスの実用性を実証し、これらのメトリクスを公開のために既存のPythonパッケージに統合する。
論文 参考訳(メタデータ) (2023-02-23T15:28:36Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - The role of explainability in creating trustworthy artificial
intelligence for health care: a comprehensive survey of the terminology,
design choices, and evaluation strategies [1.2762298148425795]
透明性の欠如は、医療におけるAIシステムの実装における主要な障壁の1つとして認識されている。
我々は最近の文献をレビューし、説明可能なAIシステムの設計について研究者や実践者にガイダンスを提供する。
我々は、説明可能なモデリングが信頼できるAIに貢献できると結論づけるが、説明可能性の利点は実際に証明する必要がある。
論文 参考訳(メタデータ) (2020-07-31T09:08:27Z) - Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。
具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文 参考訳(メタデータ) (2020-03-09T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。