論文の概要: Evaluating General-Purpose AI with Psychometrics
- arxiv url: http://arxiv.org/abs/2310.16379v1
- Date: Wed, 25 Oct 2023 05:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:40:11.261833
- Title: Evaluating General-Purpose AI with Psychometrics
- Title(参考訳): 心理指標を用いた汎用AIの評価
- Authors: Xiting Wang, Liming Jiang, Jose Hernandez-Orallo, Luning Sun, David
Stillwell, Fang Luo, Xing Xie
- Abstract要約: 現在のAIベンチマークは、通常、特定のタスクのコレクションのパフォーマンスを評価する。
AIシステムが今まで見たことのない新しいタスクを完了できるかどうかを予測するのは難しい。
心理学は、複数のタスクでパフォーマンスを損なう潜在構造を特定し、測定するための厳密な方法論を提供する。
- 参考スコア(独自算出の注目度): 43.85432514910491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) has witnessed an evolution from task-specific to
general-purpose systems that trend toward human versatility. As AI systems
begin to play pivotal roles in society, it is important to ensure that they are
adequately evaluated. Current AI benchmarks typically assess performance on
collections of specific tasks. This has drawbacks when used for assessing
general-purpose AI systems. First, it is difficult to predict whether AI
systems could complete a new task it has never seen or that did not previously
exist. Second, these benchmarks often focus on overall performance metrics,
potentially overlooking the finer details crucial for making informed
decisions. Lastly, there are growing concerns about the reliability of existing
benchmarks and questions about what is being measured. To solve these
challenges, this paper suggests that psychometrics, the science of
psychological measurement, should be placed at the core of evaluating
general-purpose AI. Psychometrics provides a rigorous methodology for
identifying and measuring the latent constructs that underlie performance
across multiple tasks. We discuss its merits, warn against potential pitfalls,
and propose a framework for putting it into practice. Finally, we explore
future opportunities to integrate psychometrics with AI.
- Abstract(参考訳): 人工知能(AI)は、タスク固有のシステムから汎用システムへの進化を目の当たりにした。
AIシステムは社会において重要な役割を担い始めるにつれて、適切に評価されることが重要である。
現在のAIベンチマークは通常、特定のタスクのコレクションのパフォーマンスを評価する。
これは汎用AIシステムを評価する際には欠点がある。
まず、AIシステムが今まで見たことのない新しいタスクを完了できるかどうかを予測することは困難である。
第二に、これらのベンチマークはパフォーマンスの指標全体に焦点を当てることが多い。
最後に、既存のベンチマークの信頼性や測定対象に関する質問に対する懸念が高まっている。
これらの課題を解決するために,心理学的測定の科学である心理計測が汎用AI評価の核に置かれるべきであることを示す。
サイコメトリックスは、複数のタスクにまたがるパフォーマンスを損なう潜在構造を識別し、測定するための厳密な方法論を提供する。
そのメリットを議論し,潜在的な落とし穴に対して警告するとともに,それを実践するためのフレームワークを提案する。
最後に、心理学とAIを統合する将来の機会を探る。
関連論文リスト
- Developing and Evaluating a Design Method for Positive Artificial
Intelligence [0.6138671548064356]
AI for Good"の開発は、複雑な人間の価値とシステムの整合性に関する課題を提起する。
本稿では,このギャップに対処するPositive AI設計手法を提示し,評価する。
この方法は、幸福な願望を具体的な実践に翻訳する人間中心のプロセスを提供する。
論文 参考訳(メタデータ) (2024-02-02T15:31:08Z) - Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。
我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文 参考訳(メタデータ) (2023-07-31T09:20:16Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic
Approach [59.77710485234197]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Injecting Planning-Awareness into Prediction and Detection Evaluation [42.228191984697006]
私たちは一歩後退して、現在の評価指標を批判的に評価し、タスク対応メトリクスを、デプロイされるシステムのパフォーマンスのより良い測定基準として提案します。
実世界の自律運転データとともに、実世界のシミュレーション実験により、提案したタスク認識メトリクスが結果非対称性を考慮でき、モデルのクローズドループ性能をよりよく推定できることを確認した。
論文 参考訳(メタデータ) (2021-10-07T08:52:48Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - On the uncertainty of self-supervised monocular depth estimation [52.13311094743952]
単眼深度推定のための自己監督的パラダイムは、基礎的な真理アノテーションを全く必要としないため、非常に魅力的である。
我々は,このタスクの不確かさを推定する方法と,これが深さ精度にどのように影響するかを初めて検討する。
自己教師型アプローチに特化して設計された,斬新な手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T09:00:55Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z) - What's a Good Prediction? Challenges in evaluating an agent's knowledge [0.9281671380673306]
一般知識の精度と有用性の矛盾を示す。
本稿では,オンライン連続学習環境において連続的に発生する代替評価手法を提案する。
本稿では,その利用による予測評価について初めて考察する。
論文 参考訳(メタデータ) (2020-01-23T21:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。