Fugu-MT 論文翻訳(概要): Evaluating General-Purpose AI with Psychometrics

論文の概要: Evaluating General-Purpose AI with Psychometrics

arxiv url: http://arxiv.org/abs/2310.16379v2
Date: Fri, 29 Dec 2023 05:42:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 01:25:19.787519
Title: Evaluating General-Purpose AI with Psychometrics
Title（参考訳）: 心理指標を用いた汎用AIの評価
Authors: Xiting Wang, Liming Jiang, Jose Hernandez-Orallo, David Stillwell, Luning Sun, Fang Luo, Xing Xie
Abstract要約: 本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
参考スコア（独自算出の注目度）: 43.85432514910491
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Comprehensive and accurate evaluation of general-purpose AI systems such as large language models allows for effective mitigation of their risks and deepened understanding of their capabilities. Current evaluation methodology, mostly based on benchmarks of specific tasks, falls short of adequately assessing these versatile AI systems, as present techniques lack a scientific foundation for predicting their performance on unforeseen tasks and explaining their varying performance on specific task items or user inputs. Moreover, existing benchmarks of specific tasks raise growing concerns about their reliability and validity. To tackle these challenges, we suggest transitioning from task-oriented evaluation to construct-oriented evaluation. Psychometrics, the science of psychological measurement, provides a rigorous methodology for identifying and measuring the latent constructs that underlie performance across multiple tasks. We discuss its merits, warn against potential pitfalls, and propose a framework to put it into practice. Finally, we explore future opportunities of integrating psychometrics with the evaluation of general-purpose AI systems.
Abstract（参考訳）: 大規模言語モデルのような汎用AIシステムの包括的かつ正確な評価は、リスクを効果的に軽減し、その能力のより深い理解を可能にする。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、現在の技術では、予期せぬタスクのパフォーマンスを予測し、特定のタスク項目やユーザ入力におけるパフォーマンスを説明する科学的基盤が欠けているため、これらの多用途aiシステムを適切に評価することができない。さらに、特定のタスクの既存のベンチマークでは、信頼性と妥当性に関する懸念が高まっている。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。心理学的測定の科学である心理計測学は、複数のタスクでパフォーマンスを損なう潜在構造を特定し測定するための厳密な方法論を提供する。そのメリットを議論し,潜在的な落とし穴に対して警告するとともに,それを実践するための枠組みを提案する。最後に、心理測定と汎用AIシステムの評価を統合する将来の機会について検討する。

関連論文リスト

Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots [13.26825865228582]
ロボット操作タスクのためのVLAモデルに特化して設計された8つの不確実性指標と5つの品質指標を提案する。我々は,3つの最先端VLAモデルから908のタスク実行を成功させる大規模実証実験により,その有効性を評価する。
論文参考訳（メタデータ） (2025-07-22T22:15:59Z)
Evaluation Hallucination in Multi-Round Incomplete Information Lateral-Driven Reasoning Tasks [18.613353004764885]
本研究は,既存手法の限界に対する新たな知見を明らかにする。本稿では,推論経路の検査,多変量評価指標,人的性能との比較分析など,一連の評価基準を提案する。
論文参考訳（メタデータ） (2025-05-28T15:17:34Z)
Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。 RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文参考訳（メタデータ） (2025-05-20T17:59:16Z)
Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文参考訳（メタデータ） (2025-05-08T16:55:07Z)
Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems [1.415098516077151]
エージェントがさまざまなタスクを実行するために協力するエージェントAIシステムの台頭は、その振る舞いを観察し、分析し、最適化する上で、新たな課題を提起する。従来の評価とベンチマークのアプローチは、これらのシステムの非決定論的、文脈に敏感で動的な性質を扱うのに苦労する。本稿では,エージェントシステムを開発,テスト,保守にまたがって分析・最適化する上で重要な課題と機会について考察する。
論文参考訳（メタデータ） (2025-03-09T20:02:04Z)
Toward an Evaluation Science for Generative AI Systems [22.733049816407114]
生成型AIシステムの評価科学の成熟を提唱する。特に,評価指標を実世界のパフォーマンスに適用し,評価指標を反復的に洗練し,評価機関と基準を確立すること,の3つの重要な教訓を提示する。
論文参考訳（メタデータ） (2025-03-07T11:23:48Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文参考訳（メタデータ） (2024-12-02T19:50:00Z)
Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文参考訳（メタデータ） (2024-11-17T02:35:30Z)
Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文参考訳（メタデータ） (2024-10-17T15:40:09Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。 HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文参考訳（メタデータ） (2024-07-09T12:52:22Z)
Loss Functions and Metrics in Deep Learning [0.0]
本稿では,ディープラーニングにおける損失関数と性能指標の総合的なレビューを行う。タスク固有の課題に対処するために、異なる損失関数と評価指標がどのように組み合わせられるかを示す。経験的な振る舞いとドメインの制約に基づいて損失とメトリクスを選択したり組み合わせたりするためのベストプラクティスを強調します。
論文参考訳（メタデータ） (2023-07-05T23:53:55Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文参考訳（メタデータ） (2022-09-07T10:09:12Z)
Injecting Planning-Awareness into Prediction and Detection Evaluation [42.228191984697006]
私たちは一歩後退して、現在の評価指標を批判的に評価し、タスク対応メトリクスを、デプロイされるシステムのパフォーマンスのより良い測定基準として提案します。実世界の自律運転データとともに、実世界のシミュレーション実験により、提案したタスク認識メトリクスが結果非対称性を考慮でき、モデルのクローズドループ性能をよりよく推定できることを確認した。
論文参考訳（メタデータ） (2021-10-07T08:52:48Z)
On the uncertainty of self-supervised monocular depth estimation [52.13311094743952]
単眼深度推定のための自己監督的パラダイムは、基礎的な真理アノテーションを全く必要としないため、非常に魅力的である。我々は,このタスクの不確かさを推定する方法と,これが深さ精度にどのように影響するかを初めて検討する。自己教師型アプローチに特化して設計された,斬新な手法を提案する。
論文参考訳（メタデータ） (2020-05-13T09:00:55Z)
What's a Good Prediction? Challenges in evaluating an agent's knowledge [0.9281671380673306]
一般知識の精度と有用性の矛盾を示す。本稿では,オンライン連続学習環境において連続的に発生する代替評価手法を提案する。本稿では,その利用による予測評価について初めて考察する。
論文参考訳（メタデータ） (2020-01-23T21:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。