Fugu-MT 論文翻訳(概要): A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts

論文の概要: A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts

arxiv url: http://arxiv.org/abs/2412.01934v1
Date: Mon, 02 Dec 2024 19:50:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.759822
Title: A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts
Title（参考訳）: 生成型AIシステムの能力・リスク・影響の正当性測定のための共有標準
Authors: Alexandra Chouldechova, Chad Atalla, Solon Barocas, A. Feder Cooper, Emily Corvi, P. Alex Dow, Jean Garcia-Gathright, Nicholas Pangakis, Stefanie Reed, Emily Sheng, Dan Vann, Matthew Vogel, Hannah Washington, Hanna Wallach,
Abstract要約: 生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
参考スコア（独自算出の注目度）: 38.66213773948168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The valid measurement of generative AI (GenAI) systems' capabilities, risks, and impacts forms the bedrock of our ability to evaluate these systems. We introduce a shared standard for valid measurement that helps place many of the disparate-seeming evaluation practices in use today on a common footing. Our framework, grounded in measurement theory from the social sciences, extends the work of Adcock & Collier (2001) in which the authors formalized valid measurement of concepts in political science via three processes: systematizing background concepts, operationalizing systematized concepts via annotation procedures, and applying those procedures to instances. We argue that valid measurement of GenAI systems' capabilities, risks, and impacts, further requires systematizing, operationalizing, and applying not only the entailed concepts, but also the contexts of interest and the metrics used. This involves both descriptive reasoning about particular instances and inferential reasoning about underlying populations, which is the purview of statistics. By placing many disparate-seeming GenAI evaluation practices on a common footing, our framework enables individual evaluations to be better understood, interrogated for reliability and validity, and meaningfully compared. This is an important step in advancing GenAI evaluation practices toward more formalized and theoretically grounded processes -- i.e., toward a science of GenAI evaluations.
Abstract（参考訳）: 生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準について紹介する。筆者らは,背景概念の体系化,アノテーションの手順による体系的概念の運用,これらの手順を事例に適用する3つのプロセスを通じて,政治科学における概念の有効な測定を定式化したAdcock & Collier(2001)の業績を拡張した。我々は、GenAIシステムの能力、リスク、影響の有効な測定には、関連する概念だけでなく、関心のコンテキストや使用されるメトリクスの体系化、運用、適用が必要であると論じている。これには、特定の事例に関する記述的推論と、基礎となる人口に関する推論的推論の両方が含まれる。共通基盤に多種多様なGenAI評価プラクティスを配置することにより、個々の評価をよりよく理解し、信頼性と妥当性を疑問視し、有意義に比較することができる。これは、より形式的で理論的に基礎付けられたプロセス、すなわち、GenAI評価の科学に向けて、GenAI評価プラクティスを前進させる重要なステップである。

関連論文リスト

Evaluation Framework for AI Systems in "the Wild" [37.48117853114386]
ジェネレーティブAI(GenAI)モデルは、業界全体で重要になっているが、現在の評価手法は、その普及に適応していない。従来の評価は、しばしばベンチマークや固定データセットに依存し、実世界のパフォーマンスを反映しないことが多い。本稿では,実世界のGenAIシステムを評価するための包括的枠組みを提案する。
論文参考訳（メタデータ） (2025-04-23T14:52:39Z)
Toward an Evaluation Science for Generative AI Systems [22.733049816407114]
生成型AIシステムの評価科学の成熟を提唱する。特に,評価指標を実世界のパフォーマンスに適用し,評価指標を反復的に洗練し,評価機関と基準を確立すること,の3つの重要な教訓を提示する。
論文参考訳（メタデータ） (2025-03-07T11:23:48Z)
Position: Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,MLコミュニティが,GenAIシステム評価のための計測機器を開発する際に,社会科学の学習と図面の恩恵を受けることを論じる。我々は,GenAIの能力,行動,および影響に関する概念を測定するための,社会科学からの計測理論に基づく4段階の枠組みを提案する。
論文参考訳（メタデータ） (2025-02-01T21:09:51Z)
Dimensions of Generative AI Evaluation Design [51.541816010127256]
我々は、GenAI評価設計に関わる重要な選択を捉えるための一般的な次元のセットを提案する。これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。
論文参考訳（メタデータ） (2024-11-19T18:25:30Z)
Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文参考訳（メタデータ） (2024-11-17T02:35:30Z)
Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文参考訳（メタデータ） (2024-10-17T15:40:09Z)
An evidence-based methodology for human rights impact assessment (HRIA) in the development of AI data-intensive systems [49.1574468325115]
我々は、すでに人権がデータ利用の分野で決定を下していることを示している。本研究は人権影響評価(HRIA)の方法論とモデルである。提案手法は,具体的ケーススタディで検証し,その有効性と有効性を示す。
論文参考訳（メタデータ） (2024-07-30T16:27:52Z)
Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文参考訳（メタデータ） (2023-12-23T12:30:06Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
Towards a Comprehensive Human-Centred Evaluation Framework for Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文参考訳（メタデータ） (2023-07-31T09:20:16Z)
An Experimental Investigation into the Evaluation of Explainability Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文参考訳（メタデータ） (2023-05-25T08:07:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。