Fugu-MT 論文翻訳(概要): Dimensions of Generative AI Evaluation Design

論文の概要: Dimensions of Generative AI Evaluation Design

arxiv url: http://arxiv.org/abs/2411.12709v1
Date: Tue, 19 Nov 2024 18:25:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.203385
Title: Dimensions of Generative AI Evaluation Design
Title（参考訳）: ジェネレーティブAI評価設計の次元
Authors: P. Alex Dow, Jennifer Wortman Vaughan, Solon Barocas, Chad Atalla, Alexandra Chouldechova, Hanna Wallach,
Abstract要約: 我々は、GenAI評価設計に関わる重要な選択を捉えるための一般的な次元のセットを提案する。これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。
参考スコア（独自算出の注目度）: 51.541816010127256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There are few principles or guidelines to ensure evaluations of generative AI (GenAI) models and systems are effective. To help address this gap, we propose a set of general dimensions that capture critical choices involved in GenAI evaluation design. These dimensions include the evaluation setting, the task type, the input source, the interaction style, the duration, the metric type, and the scoring method. By situating GenAI evaluations within these dimensions, we aim to guide decision-making during GenAI evaluation design and provide a structure for comparing different evaluations. We illustrate the utility of the proposed set of general dimensions using two examples: a hypothetical evaluation of the fairness of a GenAI system and three real-world GenAI evaluations of biological threats.
Abstract（参考訳）: 生成型AI(GenAI)モデルやシステムの評価が効果的であることを保証するための原則やガイドラインは少ない。このギャップに対処するために、我々はGenAI評価設計に関わる重要な選択を捉える一般的な次元のセットを提案する。これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。これらの次元内にGenAI評価を配置することにより、GenAI評価設計中の意思決定をガイドし、異なる評価を比較するための構造を提供する。本稿では,GenAIシステムの公正性に関する仮説的評価と,生物脅威に関する実世界のGenAI評価の2つの例を用いて,提案した一般次元の集合の有用性について述べる。

関連論文リスト

Position: Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,MLコミュニティが,GenAIシステム評価のための計測機器を開発する際に,社会科学の学習と図面の恩恵を受けることを論じる。我々は,GenAIの能力,行動,および影響に関する概念を測定するための,社会科学からの計測理論に基づく4段階の枠組みを提案する。
論文参考訳（メタデータ） (2025-02-01T21:09:51Z)
A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文参考訳（メタデータ） (2024-12-02T19:50:00Z)
Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文参考訳（メタデータ） (2024-11-17T02:35:30Z)
GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文参考訳（メタデータ） (2024-06-10T08:18:07Z)
GenLens: A Systematic Evaluation of Visual GenAI Model Outputs [33.93591473459988]
GenLensは、GenAIモデル出力の体系的評価のために設計されたビジュアル分析インタフェースである。モデル開発者によるユーザ調査によると、GenLensは、高い満足度で証明されたワークフローを効果的に強化する。
論文参考訳（メタデータ） (2024-02-06T04:41:06Z)
How much informative is your XAI? A decision-making assessment task to objectively measure the goodness of explanations [53.01494092422942]
XAIに対する個人化アプローチとユーザ中心アプローチの数は、近年急速に増加している。ユーザ中心のXAIアプローチがユーザとシステム間のインタラクションに肯定的な影響を与えることが明らかとなった。我々は,XAIシステムの良否を客観的かつ定量的に評価するための評価課題を提案する。
論文参考訳（メタデータ） (2023-12-07T15:49:39Z)
Towards a Comprehensive Human-Centred Evaluation Framework for Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文参考訳（メタデータ） (2023-07-31T09:20:16Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
A System's Approach Taxonomy for User-Centred XAI: A Survey [0.6882042556551609]
本稿では,一般システム理論の原理に基づく総合的,包括的でユーザ中心のXAI分類法を提案する。これは、開発者とエンドユーザの両方を含むすべてのユーザタイプに対するXAIアプローチの適切性を評価する基盤を提供する。
論文参考訳（メタデータ） (2023-03-06T00:50:23Z)
Connecting Algorithmic Research and Usage Contexts: A Perspective of Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文参考訳（メタデータ） (2022-06-22T05:17:33Z)
Crowdsourcing Evaluation of Saliency-based XAI Methods [18.18238526746074]
本稿では,クラウドソーシングによるXAI手法の評価手法を提案する。我々の手法は人間の計算ゲーム「Peek-a-boom」にインスパイアされている。自動評価と群集評価を併用した2つのデータセット上で,様々なXAI手法の精度マップを評価した。
論文参考訳（メタデータ） (2021-06-27T17:37:53Z)
Should We Trust (X)AI? Design Dimensions for Structured Experimental Evaluations [19.68184991543289]
本稿では、説明可能な人工知能(XAI)のアプローチを構造化評価するための設計次元を体系的に導出する。それらは記述的な特徴づけを可能にし、異なる研究設計の比較を容易にする。彼らはさらにXAIの設計空間を構造化し、XAIの厳密な研究に必要な正確な用語に収束した。
論文参考訳（メタデータ） (2020-09-14T13:40:51Z)
Evaluation of Text Generation: A Survey [107.62760642328455]
本稿は,ここ数年で開発された自然言語生成システムの評価手法について調査する。我々は,NLG評価手法を,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
論文参考訳（メタデータ） (2020-06-26T04:52:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。