論文の概要: An Approach to Grounding AI Model Evaluations in Human-derived Criteria
- arxiv url: http://arxiv.org/abs/2509.04676v1
- Date: Thu, 04 Sep 2025 21:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.416525
- Title: An Approach to Grounding AI Model Evaluations in Human-derived Criteria
- Title(参考訳): 人為的基準におけるAIモデル評価へのアプローチ
- Authors: Sasha Mitts,
- Abstract要約: そこで本研究では,人為評価基準による既存ベンチマークを向上するための新しい手法を提案する。
パーセプションテストとOpenEQAベンチマークで調査を行い、詳細なインタビューと大規模調査を行った。
その結果、参加者はAIに解釈的・共感的スキルが欠如していると認識しているが、AIのパフォーマンスに対する高い期待は持たないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving field of artificial intelligence (AI), traditional benchmarks can fall short in attempting to capture the nuanced capabilities of AI models. We focus on the case of physical world modeling and propose a novel approach to augment existing benchmarks with human-derived evaluation criteria, aiming to enhance the interpretability and applicability of model behaviors. Grounding our study in the Perception Test and OpenEQA benchmarks, we conducted in-depth interviews and large-scale surveys to identify key cognitive skills, such as Prioritization, Memorizing, Discerning, and Contextualizing, that are critical for both AI and human reasoning. Our findings reveal that participants perceive AI as lacking in interpretive and empathetic skills yet hold high expectations for AI performance. By integrating insights from our findings into benchmark design, we offer a framework for developing more human-aligned means of defining and measuring progress. This work underscores the importance of user-centered evaluation in AI development, providing actionable guidelines for researchers and practitioners aiming to align AI capabilities with human cognitive processes. Our approach both enhances current benchmarking practices and sets the stage for future advancements in AI model evaluation.
- Abstract(参考訳): 急速に進化する人工知能(AI)の分野では、従来のベンチマークはAIモデルの微妙な能力を捉えようとして不足する可能性がある。
本稿では, 物理世界モデリングの事例に着目し, モデル行動の解釈可能性と適用性を高めることを目的とした, 既存のベンチマークを人間による評価基準で拡張する新たなアプローチを提案する。
パーセプションテストとOpenEQAベンチマークにおいて、我々は、AIと人間の推論の両方に不可欠な、優先順位付け、記憶、認知、コンテキスト化といった重要な認知スキルを特定するために、詳細なインタビューと大規模な調査を行った。
その結果、参加者はAIに解釈的・共感的スキルが欠如していると認識しているが、AIのパフォーマンスに対する高い期待は持たないことがわかった。
結果から洞察をベンチマーク設計に統合することにより、進捗を定義して測定する、より人間に整合した手段を開発するためのフレームワークを提供します。
この研究は、AI開発におけるユーザー中心の評価の重要性を強調し、AI能力と人間の認知プロセスの整合性を目指す研究者や実践者に対して実行可能なガイドラインを提供する。
我々のアプローチはどちらも、現在のベンチマークプラクティスを強化し、AIモデル評価における将来の進歩のステージを設定します。
関連論文リスト
- Bhatt Conjectures: On Necessary-But-Not-Sufficient Benchmark Tautology for Human Like Reasoning [0.0]
Bhatt Conjecturesフレームワークは、AI推論と理解を評価するための厳密で階層的なベンチマークを導入している。
Agentreasoning-sdkは実践的な実装を示し、現在のAIモデルが複雑な推論タスクに苦労していることを明らかにする。
論文 参考訳(メタデータ) (2025-06-13T02:41:18Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Methodological Foundations for AI-Driven Survey Question Generation [41.94295877935867]
本稿では,ジェネレーティブAIを教育調査に活用するための方法論的枠組みを提案する。
大規模言語モデルが適応的でコンテキスト対応のサーベイ質問を生成する方法について検討する。
偏見、プライバシー、透明性などの倫理的問題を考察する。
論文 参考訳(メタデータ) (2025-05-02T09:50:34Z) - On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。
人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文 参考訳(メタデータ) (2025-02-27T20:21:36Z) - Developmental Support Approach to AI's Autonomous Growth: Toward the Realization of a Mutually Beneficial Stage Through Experiential Learning [0.0]
本研究では,AI自体の倫理的発展を支援する「AI開発支援」アプローチを提案する。
我々は,経験,内観,分析,仮説形成のサイクルに基づく学習フレームワークを構築した。
論文 参考訳(メタデータ) (2025-02-27T06:12:20Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Evaluating and Improving Value Judgments in AI: A Scenario-Based Study
on Large Language Models' Depiction of Social Conventions [5.457150493905063]
我々は,現代のAIサービスがユーザニーズにどのように対応しているかを評価し,さらに,大規模言語モデルによって反映された社会の描写を考察した。
本稿では,今後の機械的価値判断に応用可能な,価値調和シナリオにおける意思決定モデルを提案する。
本稿では,他の遠隔地を調査するためのツールとしてAIを利用する実践的アプローチを提唱する。
論文 参考訳(メタデータ) (2023-10-04T08:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。