論文の概要: Preliminary suggestions for rigorous GPAI model evaluations
- arxiv url: http://arxiv.org/abs/2508.00875v1
- Date: Tue, 22 Jul 2025 03:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 07:55:10.043937
- Title: Preliminary suggestions for rigorous GPAI model evaluations
- Title(参考訳): 厳密なGPAIモデル評価のための予備的提案
- Authors: Patricia Paskov, Michael J. Byun, Kevin Wei, Toby Webster,
- Abstract要約: 本論文では,汎用AI(GPAI)評価プラクティスの予備的なコンパイルについて述べる。
これには、人間の隆起研究とベンチマーク評価のための提案が含まれている。
提案は評価ライフサイクルの4つの段階(設計、実装、実行、ドキュメント)にまたがる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This document presents a preliminary compilation of general-purpose AI (GPAI) evaluation practices that may promote internal validity, external validity and reproducibility. It includes suggestions for human uplift studies and benchmark evaluations, as well as cross-cutting suggestions that may apply to many different evaluation types. Suggestions are organised across four stages in the evaluation life cycle: design, implementation, execution and documentation. Drawing from established practices in machine learning, statistics, psychology, economics, biology and other fields recognised to have important lessons for AI evaluation, these suggestions seek to contribute to the conversation on the nascent and evolving field of the science of GPAI evaluations. The intended audience of this document includes providers of GPAI models presenting systemic risk (GPAISR), for whom the EU AI Act lays out specific evaluation requirements; third-party evaluators; policymakers assessing the rigour of evaluations; and academic researchers developing or conducting GPAI evaluations.
- Abstract(参考訳): 本論文では,内的妥当性,外部的妥当性,再現性を向上する汎用AI(GPAI)評価プラクティスの予備的コンパイルについて述べる。
これには、人間アップリフト研究やベンチマーク評価のための提案や、さまざまな評価タイプに適用可能な横断的な提案が含まれる。
提案は評価ライフサイクルの4つの段階(設計、実装、実行、ドキュメント)にまたがる。
機械学習、統計学、心理学、経済学、生物学などの分野における確立した実践から、これらの提案は、GPAI評価の初期段階および進化した分野における会話に寄与することを目指している。
この文書の読者には、EU AI法が特定の評価要件を規定するシステムリスク(GPAISR)を示すGPAIモデルの提供者、第三者評価者、評価の厳格さを評価する政策立案者、GPAI評価を開発または実施する学術研究者が含まれる。
関連論文リスト
- ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。
本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。
本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - Standing on FURM ground -- A framework for evaluating Fair, Useful, and Reliable AI Models in healthcare systems [6.305990032645096]
Stanford Health Careは、公正で有用で信頼性の高いAIモデルを特定するための、テストと評価のメカニズムを開発した。
評価プロセスを説明し、6つのアセスメントを要約し、同様のアセスメントを行うためのフレームワークを共有します。
我々の新しい貢献 - シミュレーションによる有用性推定、持続可能性の定量化のための財務予測、倫理的評価を行うプロセス - は、他の医療システムにおいて、候補AIソリューションの実用的な評価を行うことができる。
論文 参考訳(メタデータ) (2024-02-27T03:33:40Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。
我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文 参考訳(メタデータ) (2023-07-31T09:20:16Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。