論文の概要: Evaluating General-Purpose AI with Psychometrics
- arxiv url: http://arxiv.org/abs/2310.16379v2
- Date: Fri, 29 Dec 2023 05:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:25:19.787519
- Title: Evaluating General-Purpose AI with Psychometrics
- Title(参考訳): 心理指標を用いた汎用AIの評価
- Authors: Xiting Wang, Liming Jiang, Jose Hernandez-Orallo, David Stillwell,
Luning Sun, Fang Luo, Xing Xie
- Abstract要約: 本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
- 参考スコア(独自算出の注目度): 43.85432514910491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive and accurate evaluation of general-purpose AI systems such as
large language models allows for effective mitigation of their risks and
deepened understanding of their capabilities. Current evaluation methodology,
mostly based on benchmarks of specific tasks, falls short of adequately
assessing these versatile AI systems, as present techniques lack a scientific
foundation for predicting their performance on unforeseen tasks and explaining
their varying performance on specific task items or user inputs. Moreover,
existing benchmarks of specific tasks raise growing concerns about their
reliability and validity. To tackle these challenges, we suggest transitioning
from task-oriented evaluation to construct-oriented evaluation. Psychometrics,
the science of psychological measurement, provides a rigorous methodology for
identifying and measuring the latent constructs that underlie performance
across multiple tasks. We discuss its merits, warn against potential pitfalls,
and propose a framework to put it into practice. Finally, we explore future
opportunities of integrating psychometrics with the evaluation of
general-purpose AI systems.
- Abstract(参考訳): 大規模言語モデルのような汎用AIシステムの包括的かつ正確な評価は、リスクを効果的に軽減し、その能力のより深い理解を可能にする。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、現在の技術では、予期せぬタスクのパフォーマンスを予測し、特定のタスク項目やユーザ入力におけるパフォーマンスを説明する科学的基盤が欠けているため、これらの多用途aiシステムを適切に評価することができない。
さらに、特定のタスクの既存のベンチマークでは、信頼性と妥当性に関する懸念が高まっている。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
心理学的測定の科学である心理計測学は、複数のタスクでパフォーマンスを損なう潜在構造を特定し測定するための厳密な方法論を提供する。
そのメリットを議論し,潜在的な落とし穴に対して警告するとともに,それを実践するための枠組みを提案する。
最後に、心理測定と汎用AIシステムの評価を統合する将来の機会について検討する。
関連論文リスト
- Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。
HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。
本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文 参考訳(メタデータ) (2024-07-09T12:52:22Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Injecting Planning-Awareness into Prediction and Detection Evaluation [42.228191984697006]
私たちは一歩後退して、現在の評価指標を批判的に評価し、タスク対応メトリクスを、デプロイされるシステムのパフォーマンスのより良い測定基準として提案します。
実世界の自律運転データとともに、実世界のシミュレーション実験により、提案したタスク認識メトリクスが結果非対称性を考慮でき、モデルのクローズドループ性能をよりよく推定できることを確認した。
論文 参考訳(メタデータ) (2021-10-07T08:52:48Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - On the uncertainty of self-supervised monocular depth estimation [52.13311094743952]
単眼深度推定のための自己監督的パラダイムは、基礎的な真理アノテーションを全く必要としないため、非常に魅力的である。
我々は,このタスクの不確かさを推定する方法と,これが深さ精度にどのように影響するかを初めて検討する。
自己教師型アプローチに特化して設計された,斬新な手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T09:00:55Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z) - What's a Good Prediction? Challenges in evaluating an agent's knowledge [0.9281671380673306]
一般知識の精度と有用性の矛盾を示す。
本稿では,オンライン連続学習環境において連続的に発生する代替評価手法を提案する。
本稿では,その利用による予測評価について初めて考察する。
論文 参考訳(メタデータ) (2020-01-23T21:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。