Fugu-MT 論文翻訳(概要): Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead

論文の概要: Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead

arxiv url: http://arxiv.org/abs/2507.23009v1
Date: Wed, 30 Jul 2025 18:14:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:08.522084
Title: Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead
Title（参考訳）: 人間のテストでAIを評価するのをやめ、代わりにAI固有のテストを開発する
Authors: Tom Sühr, Florian E. Dorner, Olawale Salaudeen, Augustin Kelava, Samira Samadi,
Abstract要約: 我々は、ベンチマークのパフォーマンスを人間のような特性の測定として解釈することは、十分な理論的、実証的な正当化を欠いていると論じる。私たちは、AIシステムに適した、原則化されたAI固有の評価フレームワークの開発を呼びかけます。
参考スコア（独自算出の注目度）: 2.809966405091883
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable results on a range of standardized tests originally designed to assess human cognitive and psychological traits, such as intelligence and personality. While these results are often interpreted as strong evidence of human-like characteristics in LLMs, this paper argues that such interpretations constitute an ontological error. Human psychological and educational tests are theory-driven measurement instruments, calibrated to a specific human population. Applying these tests to non-human subjects without empirical validation, risks mischaracterizing what is being measured. Furthermore, a growing trend frames AI performance on benchmarks as measurements of traits such as ``intelligence'', despite known issues with validity, data contamination, cultural bias and sensitivity to superficial prompt changes. We argue that interpreting benchmark performance as measurements of human-like traits, lacks sufficient theoretical and empirical justification. This leads to our position: Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead. We call for the development of principled, AI-specific evaluation frameworks tailored to AI systems. Such frameworks might build on existing frameworks for constructing and validating psychometrics tests, or could be created entirely from scratch to fit the unique context of AI.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間の認知的・心理的特性(知性や性格など)を評価するために設計された一連の標準化されたテストにおいて、目覚ましい結果を得た。これらの結果は, LLMにおける人間的特徴の強い証拠として解釈されることが多いが, このような解釈は存在論的誤りを構成すると論じる。人間の心理的および教育的テストは理論駆動の計測装置であり、特定の人間の集団に調整される。これらの検査を経験的検証なしで人間以外の被験者に適用すると、測定されているものを誤認識するリスクが生じる。さらに、その増加傾向は、妥当性、データ汚染、文化的バイアス、表面的な即興的な変化に対する感受性といった既知の問題にもかかわらず、‘インテリジェンス’のような特性の測定として、ベンチマーク上でのAIパフォーマンスを規定している。我々は、ベンチマークのパフォーマンスを人間のような特性の測定として解釈することは、十分な理論的、実証的な正当化を欠いていると論じる。人間のテストによるAIの評価をやめ、代わりにAI固有のテストを開発する。私たちは、AIシステムに適した、原則化されたAI固有の評価フレームワークの開発を呼びかけます。このようなフレームワークは、サイコメトリックステストの構築と検証のための既存のフレームワーク上に構築される可能性がある。

関連論文リスト

Perceptual Quality Assessment for Embodied AI [66.96928199019129]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文参考訳（メタデータ） (2025-05-22T15:51:07Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
Applying IRT to Distinguish Between Human and Generative AI Responses to Multiple-Choice Assessments [0.0]
評価に複数の選択質問が広く使用されているにもかかわらず、AI不正の検出はほとんど調査されていない。本稿では,このギャップに対処するための項目応答理論の適用法を提案する。我々のアプローチは、人工知能と人間の知性が異なる応答パターンを示すという仮定に基づいている。
論文参考訳（メタデータ） (2024-11-28T09:43:06Z)
Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文参考訳（メタデータ） (2024-09-29T04:31:45Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
MAILS -- Meta AI Literacy Scale: Development and Testing of an AI Literacy Questionnaire Based on Well-Founded Competency Models and Psychological Change- and Meta-Competencies [6.368014180870025]
アンケートはモジュラー(すなわち、互いに独立して使用できる異なるファセットを含む)であり、プロフェッショナルな生活に柔軟に適用できるべきである。我々は、AIリテラシーの異なる側面を表すために、Ngと同僚がAIリテラシーを概念化した60項目を作成した。 AIに関する問題解決、学習、感情制御などの心理的能力を表す12項目が追加されている。
論文参考訳（メタデータ） (2023-02-18T12:35:55Z)
Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文参考訳（メタデータ） (2022-11-23T16:16:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。