Fugu-MT 論文翻訳(概要): On Benchmarking Human-Like Intelligence in Machines

論文の概要: On Benchmarking Human-Like Intelligence in Machines

arxiv url: http://arxiv.org/abs/2502.20502v1
Date: Thu, 27 Feb 2025 20:21:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.447385
Title: On Benchmarking Human-Like Intelligence in Machines
Title（参考訳）: 機械における人間のような知能のベンチマークについて
Authors: Lance Ying, Katherine M. Collins, Lionel Wong, Ilia Sucholutsky, Ryan Liu, Adrian Weller, Tianmin Shu, Thomas L. Griffiths, Joshua B. Tenenbaum,
Abstract要約: 現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
参考スコア（独自算出の注目度）: 77.55118048492021
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent benchmark studies have claimed that AI has approached or even surpassed human-level performances on various cognitive tasks. However, this position paper argues that current AI evaluation paradigms are insufficient for assessing human-like cognitive capabilities. We identify a set of key shortcomings: a lack of human-validated labels, inadequate representation of human response variability and uncertainty, and reliance on simplified and ecologically-invalid tasks. We support our claims by conducting a human evaluation study on ten existing AI benchmarks, suggesting significant biases and flaws in task and label designs. To address these limitations, we propose five concrete recommendations for developing future benchmarks that will enable more rigorous and meaningful evaluations of human-like cognitive capacities in AI with various implications for such AI applications.
Abstract（参考訳）: 最近のベンチマーク研究は、AIが様々な認知タスクにおいて人間レベルのパフォーマンスに近づいたり、超えたりしていると主張している。しかし、このポジションペーパーでは、現在のAI評価パラダイムは人間のような認知能力を評価するには不十分であると主張している。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。我々は、既存のAIベンチマーク10件について人間による評価研究を行い、タスクやラベル設計の重大なバイアスと欠陥を示唆することで、私たちの主張を支持します。これらの制限に対処するため、我々は、AIアプリケーションに様々な意味を持つ、AIにおける人間のような認知能力のより厳密で有意義な評価を可能にする、将来のベンチマークを開発するための5つの具体的な推奨事項を提案する。

関連論文リスト

Bias in the Loop: How Humans Evaluate AI-Generated Suggestions [9.578382668831988]
人間とAIのコラボレーションは、医療診断からコンテンツモデレーションに至るまで、業界全体の意思決定を促進する。これらのコラボレーションが成功するか失敗するかを決定する心理的要因についてはほとんど分かっていません。我々は,2,784人の参加者によるランダム化実験を行い,AIによる提案に対するタスクデザインと個人特性がどのように人間の反応を形作るかを検討した。
論文参考訳（メタデータ） (2025-09-10T11:43:29Z)
An Approach to Grounding AI Model Evaluations in Human-derived Criteria [0.0]
そこで本研究では,人為評価基準による既存ベンチマークを向上するための新しい手法を提案する。パーセプションテストとOpenEQAベンチマークで調査を行い、詳細なインタビューと大規模調査を行った。その結果、参加者はAIに解釈的・共感的スキルが欠如していると認識しているが、AIのパフォーマンスに対する高い期待は持たないことがわかった。
論文参考訳（メタデータ） (2025-09-04T21:40:32Z)
The illusion of a perfect metric: Why evaluating AI's words is harder than it looks [0.0]
自然言語生成(NLG)は、AIの実用化に不可欠である。人間の評価はデファクトスタンダードと考えられているが、高価でスケーラビリティに欠ける。決定的な解として単一の計量が現れることはなく、結果として、完全に含意を考慮せずに異なる計量を用いた研究が行われる。
論文参考訳（メタデータ） (2025-08-19T13:22:41Z)
HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes [72.26829188852139]
HumanPCRは、人間の視覚的コンテキストに関するMLLMの能力を調べるための評価スイートである。 Human-P、HumanThought-C、Human-Rは、6,000以上の人間認証された複数の選択質問を特徴としている。 Human-Rは、手動でキュレートされたビデオ推論テストを提供する。
論文参考訳（メタデータ） (2025-08-19T09:52:04Z)
Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead [2.809966405091883]
我々は、ベンチマークのパフォーマンスを人間のような特性の測定として解釈することは、十分な理論的、実証的な正当化を欠いていると論じる。私たちは、AIシステムに適した、原則化されたAI固有の評価フレームワークの開発を呼びかけます。
論文参考訳（メタデータ） (2025-07-30T18:14:35Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
Perceptual Quality Assessment for Embodied AI [66.96928199019129]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文参考訳（メタデータ） (2025-05-22T15:51:07Z)
To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文参考訳（メタデータ） (2024-09-22T09:43:27Z)
On Evaluating Explanation Utility for Human-AI Decision Making in NLP [39.58317527488534]
アプリケーショングラウンド評価に適した既存の指標について検討する。我々は,人間-AIチームの形成と研究のために,芸術の状態を再評価することの重要性を実証する。
論文参考訳（メタデータ） (2024-07-03T23:53:27Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Towards Human-AI Deliberation: Design and Evaluation of LLM-Empowered Deliberative AI for AI-Assisted Decision-Making [47.33241893184721]
AIによる意思決定において、人間はしばしばAIの提案を受動的にレビューし、それを受け入れるか拒否するかを決定する。意思決定における人間-AIの意見の対立に関する議論と人間のリフレクションを促進する新しい枠組みであるHuman-AI Deliberationを提案する。人間の熟考の理論に基づいて、この枠組みは人間とAIを次元レベルの意見の引用、熟考的議論、意思決定の更新に携わる。
論文参考訳（メタデータ） (2024-03-25T14:34:06Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
The Role of AI in Drug Discovery: Challenges, Opportunities, and Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文参考訳（メタデータ） (2022-12-08T23:23:39Z)
Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文参考訳（メタデータ） (2022-11-23T16:16:52Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Modelos din\^amicos aplicados \`a aprendizagem de valores em intelig\^encia artificial [0.0]
この地域の数人の研究者が、人間と環境の保存のための堅牢で有益な、安全なAIの概念を開発した。人工知能エージェントが人間の価値観に合わせた価値を持っていることは、最も重要である。おそらくこの難しさは、認知的手法を使って価値を表現するという問題に対処する方法から来ています。
論文参考訳（メタデータ） (2020-07-30T00:56:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。