論文の概要: Dimensions of Generative AI Evaluation Design
- arxiv url: http://arxiv.org/abs/2411.12709v1
- Date: Tue, 19 Nov 2024 18:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:31.597072
- Title: Dimensions of Generative AI Evaluation Design
- Title(参考訳): ジェネレーティブAI評価設計の次元
- Authors: P. Alex Dow, Jennifer Wortman Vaughan, Solon Barocas, Chad Atalla, Alexandra Chouldechova, Hanna Wallach,
- Abstract要約: 我々は、GenAI評価設計に関わる重要な選択を捉えるための一般的な次元のセットを提案する。
これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。
- 参考スコア(独自算出の注目度): 51.541816010127256
- License:
- Abstract: There are few principles or guidelines to ensure evaluations of generative AI (GenAI) models and systems are effective. To help address this gap, we propose a set of general dimensions that capture critical choices involved in GenAI evaluation design. These dimensions include the evaluation setting, the task type, the input source, the interaction style, the duration, the metric type, and the scoring method. By situating GenAI evaluations within these dimensions, we aim to guide decision-making during GenAI evaluation design and provide a structure for comparing different evaluations. We illustrate the utility of the proposed set of general dimensions using two examples: a hypothetical evaluation of the fairness of a GenAI system and three real-world GenAI evaluations of biological threats.
- Abstract(参考訳): 生成型AI(GenAI)モデルやシステムの評価が効果的であることを保証するための原則やガイドラインは少ない。
このギャップに対処するために、我々はGenAI評価設計に関わる重要な選択を捉える一般的な次元のセットを提案する。
これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。
これらの次元内にGenAI評価を配置することにより、GenAI評価設計中の意思決定をガイドし、異なる評価を比較するための構造を提供する。
本稿では,GenAIシステムの公正性に関する仮説的評価と,生物脅威に関する実世界のGenAI評価の2つの例を用いて,提案した一般次元の集合の有用性について述べる。
関連論文リスト
- GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。
我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。
その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-06-10T08:18:07Z) - GenLens: A Systematic Evaluation of Visual GenAI Model Outputs [33.93591473459988]
GenLensは、GenAIモデル出力の体系的評価のために設計されたビジュアル分析インタフェースである。
モデル開発者によるユーザ調査によると、GenLensは、高い満足度で証明されたワークフローを効果的に強化する。
論文 参考訳(メタデータ) (2024-02-06T04:41:06Z) - How much informative is your XAI? A decision-making assessment task to
objectively measure the goodness of explanations [53.01494092422942]
XAIに対する個人化アプローチとユーザ中心アプローチの数は、近年急速に増加している。
ユーザ中心のXAIアプローチがユーザとシステム間のインタラクションに肯定的な影響を与えることが明らかとなった。
我々は,XAIシステムの良否を客観的かつ定量的に評価するための評価課題を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:49:39Z) - Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。
我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文 参考訳(メタデータ) (2023-07-31T09:20:16Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - A System's Approach Taxonomy for User-Centred XAI: A Survey [0.6882042556551609]
本稿では,一般システム理論の原理に基づく総合的,包括的でユーザ中心のXAI分類法を提案する。
これは、開発者とエンドユーザの両方を含むすべてのユーザタイプに対するXAIアプローチの適切性を評価する基盤を提供する。
論文 参考訳(メタデータ) (2023-03-06T00:50:23Z) - Connecting Algorithmic Research and Usage Contexts: A Perspective of
Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。
このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-22T05:17:33Z) - Crowdsourcing Evaluation of Saliency-based XAI Methods [18.18238526746074]
本稿では,クラウドソーシングによるXAI手法の評価手法を提案する。
我々の手法は人間の計算ゲーム「Peek-a-boom」にインスパイアされている。
自動評価と群集評価を併用した2つのデータセット上で,様々なXAI手法の精度マップを評価した。
論文 参考訳(メタデータ) (2021-06-27T17:37:53Z) - Should We Trust (X)AI? Design Dimensions for Structured Experimental
Evaluations [19.68184991543289]
本稿では、説明可能な人工知能(XAI)のアプローチを構造化評価するための設計次元を体系的に導出する。
それらは記述的な特徴づけを可能にし、異なる研究設計の比較を容易にする。
彼らはさらにXAIの設計空間を構造化し、XAIの厳密な研究に必要な正確な用語に収束した。
論文 参考訳(メタデータ) (2020-09-14T13:40:51Z) - Evaluation of Text Generation: A Survey [107.62760642328455]
本稿は,ここ数年で開発された自然言語生成システムの評価手法について調査する。
我々は,NLG評価手法を,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
論文 参考訳(メタデータ) (2020-06-26T04:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。