Fugu-MT 論文翻訳(概要): Evaluating General-Purpose AI with Psychometrics

論文の概要: Evaluating General-Purpose AI with Psychometrics

arxiv url: http://arxiv.org/abs/2310.16379v1
Date: Wed, 25 Oct 2023 05:38:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 16:40:11.261833
Title: Evaluating General-Purpose AI with Psychometrics
Title（参考訳）: 心理指標を用いた汎用AIの評価
Authors: Xiting Wang, Liming Jiang, Jose Hernandez-Orallo, Luning Sun, David Stillwell, Fang Luo, Xing Xie
Abstract要約: 現在のAIベンチマークは、通常、特定のタスクのコレクションのパフォーマンスを評価する。 AIシステムが今まで見たことのない新しいタスクを完了できるかどうかを予測するのは難しい。心理学は、複数のタスクでパフォーマンスを損なう潜在構造を特定し、測定するための厳密な方法論を提供する。
参考スコア（独自算出の注目度）: 43.85432514910491
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial intelligence (AI) has witnessed an evolution from task-specific to general-purpose systems that trend toward human versatility. As AI systems begin to play pivotal roles in society, it is important to ensure that they are adequately evaluated. Current AI benchmarks typically assess performance on collections of specific tasks. This has drawbacks when used for assessing general-purpose AI systems. First, it is difficult to predict whether AI systems could complete a new task it has never seen or that did not previously exist. Second, these benchmarks often focus on overall performance metrics, potentially overlooking the finer details crucial for making informed decisions. Lastly, there are growing concerns about the reliability of existing benchmarks and questions about what is being measured. To solve these challenges, this paper suggests that psychometrics, the science of psychological measurement, should be placed at the core of evaluating general-purpose AI. Psychometrics provides a rigorous methodology for identifying and measuring the latent constructs that underlie performance across multiple tasks. We discuss its merits, warn against potential pitfalls, and propose a framework for putting it into practice. Finally, we explore future opportunities to integrate psychometrics with AI.
Abstract（参考訳）: 人工知能(AI)は、タスク固有のシステムから汎用システムへの進化を目の当たりにした。 AIシステムは社会において重要な役割を担い始めるにつれて、適切に評価されることが重要である。現在のAIベンチマークは通常、特定のタスクのコレクションのパフォーマンスを評価する。これは汎用AIシステムを評価する際には欠点がある。まず、AIシステムが今まで見たことのない新しいタスクを完了できるかどうかを予測することは困難である。第二に、これらのベンチマークはパフォーマンスの指標全体に焦点を当てることが多い。最後に、既存のベンチマークの信頼性や測定対象に関する質問に対する懸念が高まっている。これらの課題を解決するために,心理学的測定の科学である心理計測が汎用AI評価の核に置かれるべきであることを示す。サイコメトリックスは、複数のタスクにまたがるパフォーマンスを損なう潜在構造を識別し、測定するための厳密な方法論を提供する。そのメリットを議論し,潜在的な落とし穴に対して警告するとともに,それを実践するためのフレームワークを提案する。最後に、心理学とAIを統合する将来の機会を探る。

関連論文リスト

Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots [13.26825865228582]
ロボット操作タスクのためのVLAモデルに特化して設計された8つの不確実性指標と5つの品質指標を提案する。我々は,3つの最先端VLAモデルから908のタスク実行を成功させる大規模実証実験により,その有効性を評価する。
論文参考訳（メタデータ） (2025-07-22T22:15:59Z)
Evaluation Hallucination in Multi-Round Incomplete Information Lateral-Driven Reasoning Tasks [18.613353004764885]
本研究は,既存手法の限界に対する新たな知見を明らかにする。本稿では,推論経路の検査,多変量評価指標,人的性能との比較分析など,一連の評価基準を提案する。
論文参考訳（メタデータ） (2025-05-28T15:17:34Z)
Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。 RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文参考訳（メタデータ） (2025-05-20T17:59:16Z)
Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文参考訳（メタデータ） (2025-05-08T16:55:07Z)
Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems [1.415098516077151]
エージェントがさまざまなタスクを実行するために協力するエージェントAIシステムの台頭は、その振る舞いを観察し、分析し、最適化する上で、新たな課題を提起する。従来の評価とベンチマークのアプローチは、これらのシステムの非決定論的、文脈に敏感で動的な性質を扱うのに苦労する。本稿では,エージェントシステムを開発,テスト,保守にまたがって分析・最適化する上で重要な課題と機会について考察する。
論文参考訳（メタデータ） (2025-03-09T20:02:04Z)
Toward an Evaluation Science for Generative AI Systems [22.733049816407114]
生成型AIシステムの評価科学の成熟を提唱する。特に,評価指標を実世界のパフォーマンスに適用し,評価指標を反復的に洗練し,評価機関と基準を確立すること,の3つの重要な教訓を提示する。
論文参考訳（メタデータ） (2025-03-07T11:23:48Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文参考訳（メタデータ） (2024-12-02T19:50:00Z)
Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文参考訳（メタデータ） (2024-11-17T02:35:30Z)
Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文参考訳（メタデータ） (2024-10-17T15:40:09Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。 HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文参考訳（メタデータ） (2024-07-09T12:52:22Z)
Loss Functions and Metrics in Deep Learning [0.0]
本稿では,ディープラーニングにおける損失関数と性能指標の総合的なレビューを行う。タスク固有の課題に対処するために、異なる損失関数と評価指標がどのように組み合わせられるかを示す。経験的な振る舞いとドメインの制約に基づいて損失とメトリクスを選択したり組み合わせたりするためのベストプラクティスを強調します。
論文参考訳（メタデータ） (2023-07-05T23:53:55Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文参考訳（メタデータ） (2022-09-07T10:09:12Z)
Injecting Planning-Awareness into Prediction and Detection Evaluation [42.228191984697006]
私たちは一歩後退して、現在の評価指標を批判的に評価し、タスク対応メトリクスを、デプロイされるシステムのパフォーマンスのより良い測定基準として提案します。実世界の自律運転データとともに、実世界のシミュレーション実験により、提案したタスク認識メトリクスが結果非対称性を考慮でき、モデルのクローズドループ性能をよりよく推定できることを確認した。
論文参考訳（メタデータ） (2021-10-07T08:52:48Z)
On the uncertainty of self-supervised monocular depth estimation [52.13311094743952]
単眼深度推定のための自己監督的パラダイムは、基礎的な真理アノテーションを全く必要としないため、非常に魅力的である。我々は,このタスクの不確かさを推定する方法と,これが深さ精度にどのように影響するかを初めて検討する。自己教師型アプローチに特化して設計された,斬新な手法を提案する。
論文参考訳（メタデータ） (2020-05-13T09:00:55Z)
What's a Good Prediction? Challenges in evaluating an agent's knowledge [0.9281671380673306]
一般知識の精度と有用性の矛盾を示す。本稿では,オンライン連続学習環境において連続的に発生する代替評価手法を提案する。本稿では,その利用による予測評価について初めて考察する。
論文参考訳（メタデータ） (2020-01-23T21:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。