論文の概要: Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation
- arxiv url: http://arxiv.org/abs/2502.06559v1
- Date: Mon, 10 Feb 2025 15:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:32.473688
- Title: Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation
- Title(参考訳): AIベンチマークを信頼できるか? AI評価における現状の学際的考察
- Authors: Maria Eriksson, Erasmo Purificato, Arman Noroozian, Joao Vinagre, Guillaume Chaslot, Emilia Gomez, David Fernandez-Llorca,
- Abstract要約: 本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
- 参考スコア(独自算出の注目度): 2.2241228857601727
- License:
- Abstract: Quantitative Artificial Intelligence (AI) Benchmarks have emerged as fundamental tools for evaluating the performance, capability, and safety of AI models and systems. Currently, they shape the direction of AI development and are playing an increasingly prominent role in regulatory frameworks. As their influence grows, however, so too does concerns about how and with what effects they evaluate highly sensitive topics such as capabilities, including high-impact capabilities, safety and systemic risks. This paper presents an interdisciplinary meta-review of about 100 studies that discuss shortcomings in quantitative benchmarking practices, published in the last 10 years. It brings together many fine-grained issues in the design and application of benchmarks (such as biases in dataset creation, inadequate documentation, data contamination, and failures to distinguish signal from noise) with broader sociotechnical issues (such as an over-focus on evaluating text-based AI models according to one-time testing logic that fails to account for how AI models are increasingly multimodal and interact with humans and other technical systems). Our review also highlights a series of systemic flaws in current benchmarking practices, such as misaligned incentives, construct validity issues, unknown unknowns, and problems with the gaming of benchmark results. Furthermore, it underscores how benchmark practices are fundamentally shaped by cultural, commercial and competitive dynamics that often prioritise state-of-the-art performance at the expense of broader societal concerns. By providing an overview of risks associated with existing benchmarking procedures, we problematise disproportionate trust placed in benchmarks and contribute to ongoing efforts to improve the accountability and relevance of quantitative AI benchmarks within the complexities of real-world scenarios.
- Abstract(参考訳): 定量的人工知能(AI)ベンチマークは、AIモデルやシステムのパフォーマンス、能力、安全性を評価するための基本的なツールとして登場した。
現在、彼らはAI開発の方向性を形作っており、規制フレームワークにおいてますます顕著な役割を担っている。
しかし、その影響が拡大するにつれて、高いインパクト能力、安全性、システム的リスクなど、非常に敏感なトピックを評価する方法や効果についても懸念が持たれる。
本稿では,過去10年間に発行された定量的ベンチマーク実践の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
ベンチマークの設計と適用(データセット作成のバイアス、不十分なドキュメント、データ汚染、ノイズとシグナルを区別する失敗など)には、より広範な社会技術的問題(AIモデルがますますマルチモーダルになり、人間や他の技術システムとどのように相互作用するかを考慮せずに、テキストベースのAIモデルを評価する過度な焦点など)が組み込まれている。
我々のレビューでは、現在のベンチマークプラクティスにおける一連のシステム的欠陥、例えば、不整合インセンティブ、構成の妥当性の問題、未知の未知、ベンチマーク結果のゲームに関する問題についても取り上げている。
さらに、より広範な社会的懸念を犠牲にして、しばしば最先端のパフォーマンスを優先する文化的、商業的、競争的なダイナミクスによって、ベンチマークプラクティスが根本的に形作られています。
既存のベンチマーク手順に関連するリスクの概要を提供することで、ベンチマークに置かれた不均質な信頼を問題視し、実世界のシナリオの複雑さにおける定量的AIベンチマークのアカウンタビリティと関連性を改善するための継続的な取り組みに寄与する。
関連論文リスト
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Guideline for Trustworthy Artificial Intelligence -- AI Assessment
Catalog [0.0]
AIアプリケーションとそれに基づくビジネスモデルが、高品質な標準に従って開発されている場合にのみ、その潜在能力を最大限に発揮できることは明らかです。
AIアプリケーションの信頼性の問題は非常に重要であり、多くの主要な出版物の主題となっている。
このAIアセスメントカタログは、まさにこの点に対応しており、2つのターゲットグループを対象としている。
論文 参考訳(メタデータ) (2023-06-20T08:07:18Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Mapping global dynamics of benchmark creation and saturation in
artificial intelligence [5.233652342195164]
ベンチマークの作成と飽和のグローバルなダイナミクスのマップを作成します。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートした。
論文 参考訳(メタデータ) (2022-03-09T09:16:49Z) - Statistical Perspectives on Reliability of Artificial Intelligence
Systems [6.284088451820049]
AIシステムの信頼性に関する統計的視点を提供する。
本稿では,AI信頼性研究のためのSMART統計フレームワークを提案する。
我々は、AI信頼性のモデリングと分析における最近の発展について論じる。
論文 参考訳(メタデータ) (2021-11-09T20:00:14Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。