論文の概要: Position: Evaluating Generative AI Systems is a Social Science Measurement Challenge
- arxiv url: http://arxiv.org/abs/2502.00561v1
- Date: Sat, 01 Feb 2025 21:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:50.426954
- Title: Position: Evaluating Generative AI Systems is a Social Science Measurement Challenge
- Title(参考訳): 位置: 生成型AIシステムの評価は社会科学測定の課題である
- Authors: Hanna Wallach, Meera Desai, A. Feder Cooper, Angelina Wang, Chad Atalla, Solon Barocas, Su Lin Blodgett, Alexandra Chouldechova, Emily Corvi, P. Alex Dow, Jean Garcia-Gathright, Alexandra Olteanu, Nicholas Pangakis, Stefanie Reed, Emily Sheng, Dan Vann, Jennifer Wortman Vaughan, Matthew Vogel, Hannah Washington, Abigail Z. Jacobs,
- Abstract要約: 我々は,MLコミュニティが,GenAIシステム評価のための計測機器を開発する際に,社会科学の学習と図面の恩恵を受けることを論じる。
我々は,GenAIの能力,行動,および影響に関する概念を測定するための,社会科学からの計測理論に基づく4段階の枠組みを提案する。
- 参考スコア(独自算出の注目度): 78.35388859345056
- License:
- Abstract: The measurement tasks involved in evaluating generative AI (GenAI) systems are especially difficult, leading to what has been described as "a tangle of sloppy tests [and] apples-to-oranges comparisons" (Roose, 2024). In this position paper, we argue that the ML community would benefit from learning from and drawing on the social sciences when developing and using measurement instruments for evaluating GenAI systems. Specifically, our position is that evaluating GenAI systems is a social science measurement challenge. We present a four-level framework, grounded in measurement theory from the social sciences, for measuring concepts related to the capabilities, behaviors, and impacts of GenAI. This framework has two important implications for designing and evaluating evaluations: First, it can broaden the expertise involved in evaluating GenAI systems by enabling stakeholders with different perspectives to participate in conceptual debates. Second, it brings rigor to both conceptual and operational debates by offering a set of lenses for interrogating the validity of measurement instruments and their resulting measurements.
- Abstract(参考訳): 生成型AI(GenAI)システム評価に関わる測定タスクは特に困難であり、"リンゴとオレンジの比較" (Roose, 2024) と説明されている。
本論文では,GenAIシステム評価のための計測機器の開発・利用において,MLコミュニティが社会科学の学習と図面の恩恵を受けることを論じる。
具体的には、GenAIシステムを評価することは社会科学測定の課題である。
我々は,GenAIの能力,行動,および影響に関する概念を測定するための,社会科学からの計測理論に基づく4段階の枠組みを提案する。
まず、異なる視点の利害関係者が概念的な議論に参加できるようにすることで、GenAIシステムの評価に関わる専門知識を広げることができる。
第2に、測定器の妥当性と結果の測定を問うためのレンズセットを提供することによって、概念的および運用上の議論の両方に厳格さをもたらす。
関連論文リスト
- A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。
本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文 参考訳(メタデータ) (2024-12-02T19:50:00Z) - Dimensions of Generative AI Evaluation Design [51.541816010127256]
我々は、GenAI評価設計に関わる重要な選択を捉えるための一般的な次元のセットを提案する。
これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。
論文 参考訳(メタデータ) (2024-11-19T18:25:30Z) - Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文 参考訳(メタデータ) (2024-11-17T02:35:30Z) - Higher education assessment practice in the era of generative AI tools [0.37282630026096586]
本研究は,データサイエンス,データ分析,建設管理の3つの指標を用いて実験を行った。
以上の結果から,GenAIツールが主観的知識,問題解決,分析的,批判的思考,プレゼンテーション能力を示すことが明らかとなった。
この結果から,AIツールをHEでの教育や学習に活用する方法を推奨した。
論文 参考訳(メタデータ) (2024-04-01T10:43:50Z) - How much informative is your XAI? A decision-making assessment task to
objectively measure the goodness of explanations [53.01494092422942]
XAIに対する個人化アプローチとユーザ中心アプローチの数は、近年急速に増加している。
ユーザ中心のXAIアプローチがユーザとシステム間のインタラクションに肯定的な影響を与えることが明らかとなった。
我々は,XAIシステムの良否を客観的かつ定量的に評価するための評価課題を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:49:39Z) - Levels of AGI for Operationalizing Progress on the Path to AGI [64.59151650272477]
本稿では,人工知能(AGI)モデルとその前駆体の性能と動作を分類する枠組みを提案する。
このフレームワークは、AGIのパフォーマンス、一般性、自律性のレベルを導入し、モデルを比較し、リスクを評価し、AGIへの道筋に沿って進捗を測定する共通の言語を提供する。
論文 参考訳(メタデータ) (2023-11-04T17:44:58Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。