論文の概要: A Conceptual Framework for AI Capability Evaluations
- arxiv url: http://arxiv.org/abs/2506.18213v1
- Date: Mon, 23 Jun 2025 00:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.809572
- Title: A Conceptual Framework for AI Capability Evaluations
- Title(参考訳): AI能力評価のための概念的フレームワーク
- Authors: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Luca Nicolás Forziati Gangi, Matheo Sandleris Musa, Lola Ramos Pereyra, Mario Leiva, Juan Gustavo Corvalan, María Vanina Martinez, Gerardo Simari,
- Abstract要約: 本稿では,AI能力評価を解析するための概念的枠組みを提案する。
広く使われている手法や用語の分析を体系化する構造化された記述的アプローチを提供する。
また、研究者は方法論的な弱点を特定し、評価を設計する実践者を支援し、政策立案者に複雑な評価の風景を精査し、比較し、ナビゲートするツールを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems advance and integrate into society, well-designed and transparent evaluations are becoming essential tools in AI governance, informing decisions by providing evidence about system capabilities and risks. Yet there remains a lack of clarity on how to perform these assessments both comprehensively and reliably. To address this gap, we propose a conceptual framework for analyzing AI capability evaluations, offering a structured, descriptive approach that systematizes the analysis of widely used methods and terminology without imposing new taxonomies or rigid formats. This framework supports transparency, comparability, and interpretability across diverse evaluations. It also enables researchers to identify methodological weaknesses, assists practitioners in designing evaluations, and provides policymakers with an accessible tool to scrutinize, compare, and navigate complex evaluation landscapes.
- Abstract(参考訳): AIシステムが社会に進出し、統合されるにつれて、よく設計された透明な評価は、AIガバナンスにおいて不可欠なツールとなり、システム能力とリスクに関する証拠を提供することで決定を下す。
しかし、これらの評価を包括的かつ確実に行う方法については、まだ明確さの欠如が残っている。
このギャップに対処するため、我々はAI能力評価を解析するための概念的枠組みを提案し、より広く使われている手法や用語の分析を体系化し、新しい分類体系や厳密な形式を課すことなく、構造化された記述的アプローチを提供する。
このフレームワークは、さまざまな評価における透明性、可視性、解釈可能性をサポートする。
また、研究者は方法論的な弱点を特定し、評価を設計する実践者を支援し、政策立案者に複雑な評価の風景を精査し、比較し、ナビゲートするためのアクセス可能なツールを提供する。
関連論文リスト
- A Systematic Review of User-Centred Evaluation of Explainable AI in Healthcare [1.57531613028502]
本研究の目的は、医療におけるXAIのユーザエクスペリエンスを特徴付ける、明確に定義された原子特性の枠組みを開発することである。
また,システム特性に基づいて評価戦略を定義するための文脈に敏感なガイドラインも提供する。
論文 参考訳(メタデータ) (2025-06-16T18:30:00Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - A Unified Framework for Evaluating the Effectiveness and Enhancing the Transparency of Explainable AI Methods in Real-World Applications [2.0681376988193843]
AIモデルの特徴である"ブラックボックス"は、解釈可能性、透明性、信頼性を制約する。
本研究では,AIモデルによる説明の正確性,解釈可能性,堅牢性,公正性,完全性を評価するための統合XAI評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T05:30:10Z) - Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。
我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文 参考訳(メタデータ) (2024-10-17T15:40:09Z) - What Does Evaluation of Explainable Artificial Intelligence Actually Tell Us? A Case for Compositional and Contextual Validation of XAI Building Blocks [16.795332276080888]
本稿では,説明可能な人工知能システムのためのきめ細かい検証フレームワークを提案する。
技術的ビルディングブロック,ユーザによる説明的成果物,ソーシャルコミュニケーションプロトコルといった,モジュール構造の本質を認識します。
論文 参考訳(メタデータ) (2024-03-19T13:45:34Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。
本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文 参考訳(メタデータ) (2021-02-08T03:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。