論文の概要: On Benchmarking Human-Like Intelligence in Machines
- arxiv url: http://arxiv.org/abs/2502.20502v1
- Date: Thu, 27 Feb 2025 20:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:20.829509
- Title: On Benchmarking Human-Like Intelligence in Machines
- Title(参考訳): 機械における人間のような知能のベンチマークについて
- Authors: Lance Ying, Katherine M. Collins, Lionel Wong, Ilia Sucholutsky, Ryan Liu, Adrian Weller, Tianmin Shu, Thomas L. Griffiths, Joshua B. Tenenbaum,
- Abstract要約: 現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。
人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
- 参考スコア(独自算出の注目度): 77.55118048492021
- License:
- Abstract: Recent benchmark studies have claimed that AI has approached or even surpassed human-level performances on various cognitive tasks. However, this position paper argues that current AI evaluation paradigms are insufficient for assessing human-like cognitive capabilities. We identify a set of key shortcomings: a lack of human-validated labels, inadequate representation of human response variability and uncertainty, and reliance on simplified and ecologically-invalid tasks. We support our claims by conducting a human evaluation study on ten existing AI benchmarks, suggesting significant biases and flaws in task and label designs. To address these limitations, we propose five concrete recommendations for developing future benchmarks that will enable more rigorous and meaningful evaluations of human-like cognitive capacities in AI with various implications for such AI applications.
- Abstract(参考訳): 最近のベンチマーク研究は、AIが様々な認知タスクにおいて人間レベルのパフォーマンスに近づいたり、超えたりしていると主張している。
しかし、このポジションペーパーでは、現在のAI評価パラダイムは人間のような認知能力を評価するには不十分であると主張している。
人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
我々は、既存のAIベンチマーク10件について人間による評価研究を行い、タスクやラベル設計の重大なバイアスと欠陥を示唆することで、私たちの主張を支持します。
これらの制限に対処するため、我々は、AIアプリケーションに様々な意味を持つ、AIにおける人間のような認知能力のより厳密で有意義な評価を可能にする、将来のベンチマークを開発するための5つの具体的な推奨事項を提案する。
関連論文リスト
- To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - On Evaluating Explanation Utility for Human-AI Decision Making in NLP [39.58317527488534]
アプリケーショングラウンド評価に適した既存の指標について検討する。
我々は,人間-AIチームの形成と研究のために,芸術の状態を再評価することの重要性を実証する。
論文 参考訳(メタデータ) (2024-07-03T23:53:27Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Towards Human-AI Deliberation: Design and Evaluation of LLM-Empowered Deliberative AI for AI-Assisted Decision-Making [47.33241893184721]
AIによる意思決定において、人間はしばしばAIの提案を受動的にレビューし、それを受け入れるか拒否するかを決定する。
意思決定における人間-AIの意見の対立に関する議論と人間のリフレクションを促進する新しい枠組みであるHuman-AI Deliberationを提案する。
人間の熟考の理論に基づいて、この枠組みは人間とAIを次元レベルの意見の引用、熟考的議論、意思決定の更新に携わる。
論文 参考訳(メタデータ) (2024-03-25T14:34:06Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Modelos din\^amicos aplicados \`a aprendizagem de valores em
intelig\^encia artificial [0.0]
この地域の数人の研究者が、人間と環境の保存のための堅牢で有益な、安全なAIの概念を開発した。
人工知能エージェントが人間の価値観に合わせた価値を持っていることは、最も重要である。
おそらくこの難しさは、認知的手法を使って価値を表現するという問題に対処する方法から来ています。
論文 参考訳(メタデータ) (2020-07-30T00:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。