論文の概要: Preliminary suggestions for rigorous GPAI model evaluations
- arxiv url: http://arxiv.org/abs/2508.00875v1
- Date: Tue, 22 Jul 2025 03:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 07:55:10.043937
- Title: Preliminary suggestions for rigorous GPAI model evaluations
- Title(参考訳): 厳密なGPAIモデル評価のための予備的提案
- Authors: Patricia Paskov, Michael J. Byun, Kevin Wei, Toby Webster,
- Abstract要約: 本論文では,汎用AI(GPAI)評価プラクティスの予備的なコンパイルについて述べる。
これには、人間の隆起研究とベンチマーク評価のための提案が含まれている。
提案は評価ライフサイクルの4つの段階(設計、実装、実行、ドキュメント)にまたがる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This document presents a preliminary compilation of general-purpose AI (GPAI) evaluation practices that may promote internal validity, external validity and reproducibility. It includes suggestions for human uplift studies and benchmark evaluations, as well as cross-cutting suggestions that may apply to many different evaluation types. Suggestions are organised across four stages in the evaluation life cycle: design, implementation, execution and documentation. Drawing from established practices in machine learning, statistics, psychology, economics, biology and other fields recognised to have important lessons for AI evaluation, these suggestions seek to contribute to the conversation on the nascent and evolving field of the science of GPAI evaluations. The intended audience of this document includes providers of GPAI models presenting systemic risk (GPAISR), for whom the EU AI Act lays out specific evaluation requirements; third-party evaluators; policymakers assessing the rigour of evaluations; and academic researchers developing or conducting GPAI evaluations.
- Abstract(参考訳): 本論文では,内的妥当性,外部的妥当性,再現性を向上する汎用AI(GPAI)評価プラクティスの予備的コンパイルについて述べる。
これには、人間アップリフト研究やベンチマーク評価のための提案や、さまざまな評価タイプに適用可能な横断的な提案が含まれる。
提案は評価ライフサイクルの4つの段階(設計、実装、実行、ドキュメント)にまたがる。
機械学習、統計学、心理学、経済学、生物学などの分野における確立した実践から、これらの提案は、GPAI評価の初期段階および進化した分野における会話に寄与することを目指している。
この文書の読者には、EU AI法が特定の評価要件を規定するシステムリスク(GPAISR)を示すGPAIモデルの提供者、第三者評価者、評価の厳格さを評価する政策立案者、GPAI評価を開発または実施する学術研究者が含まれる。
関連論文リスト
- InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.30601926271864]
InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。
我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。
InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
論文 参考訳(メタデータ) (2026-02-16T00:40:31Z) - Beyond the Binary: The System of All-round Evaluation of Research and Its Practices in China [3.6998581528902625]
本稿では, 形態, 内容, 実用性評価を6つのキー要素に統合したSAER(System of All-round Evaluation of Research)を提案する。
総合的なシステムでは,3つの評価次元のトリニティと6つの評価要素が組み合わされ,学術的評価者や研究者が評価手法における二項対立の調整を支援する。
論文 参考訳(メタデータ) (2025-09-10T12:52:08Z) - AI Testing Should Account for Sophisticated Strategic Behaviour [19.554240127749818]
このポジションペーパーは、AIテストと評価に関する2つの主張を論じている。
第一に、評価はAIシステムが彼らの状況を理解し、戦略的に推論する可能性を考慮する必要がある。
第2に、ゲーム理論分析は、評価に基づく安全事例の推論を形式化し、精査することにより、評価設計に情報を与えることができる。
論文 参考訳(メタデータ) (2025-08-19T15:48:25Z) - SPHERE: An Evaluation Card for Human-AI Systems [75.0887588648484]
本稿では,5つの重要次元を含む評価カードSPHEREを提案する。
我々はSPHEREを用いた39の人間AIシステムのレビューを行い、現在の評価実践と改善の分野の概要を述べる。
論文 参考訳(メタデータ) (2025-03-24T20:17:20Z) - ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。
本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。
本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Standing on FURM ground -- A framework for evaluating Fair, Useful, and Reliable AI Models in healthcare systems [6.305990032645096]
Stanford Health Careは、公正で有用で信頼性の高いAIモデルを特定するための、テストと評価のメカニズムを開発した。
評価プロセスを説明し、6つのアセスメントを要約し、同様のアセスメントを行うためのフレームワークを共有します。
我々の新しい貢献 - シミュレーションによる有用性推定、持続可能性の定量化のための財務予測、倫理的評価を行うプロセス - は、他の医療システムにおいて、候補AIソリューションの実用的な評価を行うことができる。
論文 参考訳(メタデータ) (2024-02-27T03:33:40Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。
我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文 参考訳(メタデータ) (2023-07-31T09:20:16Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。