論文の概要: Evaluating General-Purpose AI with Psychometrics
- arxiv url: http://arxiv.org/abs/2310.16379v1
- Date: Wed, 25 Oct 2023 05:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:40:11.261833
- Title: Evaluating General-Purpose AI with Psychometrics
- Title(参考訳): 心理指標を用いた汎用AIの評価
- Authors: Xiting Wang, Liming Jiang, Jose Hernandez-Orallo, Luning Sun, David
Stillwell, Fang Luo, Xing Xie
- Abstract要約: 現在のAIベンチマークは、通常、特定のタスクのコレクションのパフォーマンスを評価する。
AIシステムが今まで見たことのない新しいタスクを完了できるかどうかを予測するのは難しい。
心理学は、複数のタスクでパフォーマンスを損なう潜在構造を特定し、測定するための厳密な方法論を提供する。
- 参考スコア(独自算出の注目度): 43.85432514910491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) has witnessed an evolution from task-specific to
general-purpose systems that trend toward human versatility. As AI systems
begin to play pivotal roles in society, it is important to ensure that they are
adequately evaluated. Current AI benchmarks typically assess performance on
collections of specific tasks. This has drawbacks when used for assessing
general-purpose AI systems. First, it is difficult to predict whether AI
systems could complete a new task it has never seen or that did not previously
exist. Second, these benchmarks often focus on overall performance metrics,
potentially overlooking the finer details crucial for making informed
decisions. Lastly, there are growing concerns about the reliability of existing
benchmarks and questions about what is being measured. To solve these
challenges, this paper suggests that psychometrics, the science of
psychological measurement, should be placed at the core of evaluating
general-purpose AI. Psychometrics provides a rigorous methodology for
identifying and measuring the latent constructs that underlie performance
across multiple tasks. We discuss its merits, warn against potential pitfalls,
and propose a framework for putting it into practice. Finally, we explore
future opportunities to integrate psychometrics with AI.
- Abstract(参考訳): 人工知能(AI)は、タスク固有のシステムから汎用システムへの進化を目の当たりにした。
AIシステムは社会において重要な役割を担い始めるにつれて、適切に評価されることが重要である。
現在のAIベンチマークは通常、特定のタスクのコレクションのパフォーマンスを評価する。
これは汎用AIシステムを評価する際には欠点がある。
まず、AIシステムが今まで見たことのない新しいタスクを完了できるかどうかを予測することは困難である。
第二に、これらのベンチマークはパフォーマンスの指標全体に焦点を当てることが多い。
最後に、既存のベンチマークの信頼性や測定対象に関する質問に対する懸念が高まっている。
これらの課題を解決するために,心理学的測定の科学である心理計測が汎用AI評価の核に置かれるべきであることを示す。
サイコメトリックスは、複数のタスクにまたがるパフォーマンスを損なう潜在構造を識別し、測定するための厳密な方法論を提供する。
そのメリットを議論し,潜在的な落とし穴に対して警告するとともに,それを実践するためのフレームワークを提案する。
最後に、心理学とAIを統合する将来の機会を探る。
関連論文リスト
- A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。
本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文 参考訳(メタデータ) (2024-12-02T19:50:00Z) - Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文 参考訳(メタデータ) (2024-11-17T02:35:30Z) - Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。
我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文 参考訳(メタデータ) (2024-10-17T15:40:09Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。
HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。
本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文 参考訳(メタデータ) (2024-07-09T12:52:22Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - On the uncertainty of self-supervised monocular depth estimation [52.13311094743952]
単眼深度推定のための自己監督的パラダイムは、基礎的な真理アノテーションを全く必要としないため、非常に魅力的である。
我々は,このタスクの不確かさを推定する方法と,これが深さ精度にどのように影響するかを初めて検討する。
自己教師型アプローチに特化して設計された,斬新な手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T09:00:55Z) - What's a Good Prediction? Challenges in evaluating an agent's knowledge [0.9281671380673306]
一般知識の精度と有用性の矛盾を示す。
本稿では,オンライン連続学習環境において連続的に発生する代替評価手法を提案する。
本稿では,その利用による予測評価について初めて考察する。
論文 参考訳(メタデータ) (2020-01-23T21:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。