論文の概要: Dimensions of Generative AI Evaluation Design
- arxiv url: http://arxiv.org/abs/2411.12709v1
- Date: Tue, 19 Nov 2024 18:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:31.597072
- Title: Dimensions of Generative AI Evaluation Design
- Title(参考訳): ジェネレーティブAI評価設計の次元
- Authors: P. Alex Dow, Jennifer Wortman Vaughan, Solon Barocas, Chad Atalla, Alexandra Chouldechova, Hanna Wallach,
- Abstract要約: 我々は、GenAI評価設計に関わる重要な選択を捉えるための一般的な次元のセットを提案する。
これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。
- 参考スコア(独自算出の注目度): 51.541816010127256
- License:
- Abstract: There are few principles or guidelines to ensure evaluations of generative AI (GenAI) models and systems are effective. To help address this gap, we propose a set of general dimensions that capture critical choices involved in GenAI evaluation design. These dimensions include the evaluation setting, the task type, the input source, the interaction style, the duration, the metric type, and the scoring method. By situating GenAI evaluations within these dimensions, we aim to guide decision-making during GenAI evaluation design and provide a structure for comparing different evaluations. We illustrate the utility of the proposed set of general dimensions using two examples: a hypothetical evaluation of the fairness of a GenAI system and three real-world GenAI evaluations of biological threats.
- Abstract(参考訳): 生成型AI(GenAI)モデルやシステムの評価が効果的であることを保証するための原則やガイドラインは少ない。
このギャップに対処するために、我々はGenAI評価設計に関わる重要な選択を捉える一般的な次元のセットを提案する。
これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。
これらの次元内にGenAI評価を配置することにより、GenAI評価設計中の意思決定をガイドし、異なる評価を比較するための構造を提供する。
本稿では,GenAIシステムの公正性に関する仮説的評価と,生物脅威に関する実世界のGenAI評価の2つの例を用いて,提案した一般次元の集合の有用性について述べる。
関連論文リスト
- Position: Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,MLコミュニティが,GenAIシステム評価のための計測機器を開発する際に,社会科学の学習と図面の恩恵を受けることを論じる。
我々は,GenAIの能力,行動,および影響に関する概念を測定するための,社会科学からの計測理論に基づく4段階の枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:09:51Z) - A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。
本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文 参考訳(メタデータ) (2024-12-02T19:50:00Z) - Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文 参考訳(メタデータ) (2024-11-17T02:35:30Z) - GenLens: A Systematic Evaluation of Visual GenAI Model Outputs [33.93591473459988]
GenLensは、GenAIモデル出力の体系的評価のために設計されたビジュアル分析インタフェースである。
モデル開発者によるユーザ調査によると、GenLensは、高い満足度で証明されたワークフローを効果的に強化する。
論文 参考訳(メタデータ) (2024-02-06T04:41:06Z) - How much informative is your XAI? A decision-making assessment task to
objectively measure the goodness of explanations [53.01494092422942]
XAIに対する個人化アプローチとユーザ中心アプローチの数は、近年急速に増加している。
ユーザ中心のXAIアプローチがユーザとシステム間のインタラクションに肯定的な影響を与えることが明らかとなった。
我々は,XAIシステムの良否を客観的かつ定量的に評価するための評価課題を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:49:39Z) - Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。
我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文 参考訳(メタデータ) (2023-07-31T09:20:16Z) - A System's Approach Taxonomy for User-Centred XAI: A Survey [0.6882042556551609]
本稿では,一般システム理論の原理に基づく総合的,包括的でユーザ中心のXAI分類法を提案する。
これは、開発者とエンドユーザの両方を含むすべてのユーザタイプに対するXAIアプローチの適切性を評価する基盤を提供する。
論文 参考訳(メタデータ) (2023-03-06T00:50:23Z) - Connecting Algorithmic Research and Usage Contexts: A Perspective of
Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。
このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-22T05:17:33Z) - Evaluation of Text Generation: A Survey [107.62760642328455]
本稿は,ここ数年で開発された自然言語生成システムの評価手法について調査する。
我々は,NLG評価手法を,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
論文 参考訳(メタデータ) (2020-06-26T04:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。