論文の概要: Evaluating Generative AI Systems is a Social Science Measurement Challenge
- arxiv url: http://arxiv.org/abs/2411.10939v1
- Date: Sun, 17 Nov 2024 02:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:33.546866
- Title: Evaluating Generative AI Systems is a Social Science Measurement Challenge
- Title(参考訳): 生成型AIシステムの評価は社会科学測定の課題である
- Authors: Hanna Wallach, Meera Desai, Nicholas Pangakis, A. Feder Cooper, Angelina Wang, Solon Barocas, Alexandra Chouldechova, Chad Atalla, Su Lin Blodgett, Emily Corvi, P. Alex Dow, Jean Garcia-Gathright, Alexandra Olteanu, Stefanie Reed, Emily Sheng, Dan Vann, Jennifer Wortman Vaughan, Matthew Vogel, Hannah Washington, Abigail Z. Jacobs,
- Abstract要約: 我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
- 参考スコア(独自算出の注目度): 78.35388859345056
- License:
- Abstract: Across academia, industry, and government, there is an increasing awareness that the measurement tasks involved in evaluating generative AI (GenAI) systems are especially difficult. We argue that these measurement tasks are highly reminiscent of measurement tasks found throughout the social sciences. With this in mind, we present a framework, grounded in measurement theory from the social sciences, for measuring concepts related to the capabilities, impacts, opportunities, and risks of GenAI systems. The framework distinguishes between four levels: the background concept, the systematized concept, the measurement instrument(s), and the instance-level measurements themselves. This four-level approach differs from the way measurement is typically done in ML, where researchers and practitioners appear to jump straight from background concepts to measurement instruments, with little to no explicit systematization in between. As well as surfacing assumptions, thereby making it easier to understand exactly what the resulting measurements do and do not mean, this framework has two important implications for evaluating evaluations: First, it can enable stakeholders from different worlds to participate in conceptual debates, broadening the expertise involved in evaluating GenAI systems. Second, it brings rigor to operational debates by offering a set of lenses for interrogating the validity of measurement instruments and their resulting measurements.
- Abstract(参考訳): 学術、産業、政府全体では、生成型AI(GenAI)システムの評価に関わる測定タスクが特に困難であるという認識が高まっている。
これらの測定タスクは、社会科学全体で見られる測定タスクを思い起こさせるものである、と我々は主張する。
このことを念頭に、社会科学から計測理論を基礎として、GenAIシステムの能力、影響、機会、リスクに関する概念を計測する枠組みを提示する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
この4段階のアプローチは、研究者や実践者が背景概念から測定機器へ真っ直ぐジャンプし、その間に明確な体系化がほとんど、あるいは全くないような、MLの一般的な方法とは異なる。
まず、さまざまな世界の利害関係者が概念的な議論に参加できるようにし、GenAIシステムの評価に関わる専門知識を広げることができます。
第二に、測定器の妥当性を問うためのレンズセットと結果の測定結果を提供することによって、運用上の議論に厳格さをもたらす。
関連論文リスト
- Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems [88.35461485731162]
本研究は,実践者が表現障害を測定するために,公開されている器具を効果的に使用するのを防ぐための4種類の課題を同定する。
我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を進めることである。
論文 参考訳(メタデータ) (2024-11-23T22:13:38Z) - Measuring Human and AI Values based on Generative Psychometrics with Large Language Models [13.795641564238434]
AIの最近の進歩で、大きな言語モデル(LLM)が、価値測定のツールと主題の両方として登場した。
この研究は、データ駆動価値測定パラダイムであるGPV(Generative Psychometrics for Values)を紹介している。
論文 参考訳(メタデータ) (2024-09-18T16:26:22Z) - Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
顔認識システムの運用評価に焦点をあて,適用する。
論文 参考訳(メタデータ) (2024-09-03T14:19:38Z) - Between Randomness and Arbitrariness: Some Lessons for Reliable Machine Learning at Scale [2.50194939587674]
dissertation: 信頼性を犠牲にすることなくスケーラビリティを実現するために、MLにおける偏在性のソースの定量化と緩和、不確実性推定と最適化アルゴリズムのランダム性。
論文は、機械学習の信頼性測定に関する研究が法と政策の研究と密接に結びついていることの例による実証的な証明として機能する。
論文 参考訳(メタデータ) (2024-06-13T19:29:37Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - Measuring Data [79.89948814583805]
我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。
データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。
我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
論文 参考訳(メタデータ) (2022-12-09T22:10:46Z) - Active Inference in Robotics and Artificial Agents: Survey and
Challenges [51.29077770446286]
我々は、状態推定、制御、計画、学習のためのアクティブ推論の最先端理論と実装についてレビューする。
本稿では、適応性、一般化性、堅牢性の観点から、その可能性を示す関連する実験を紹介する。
論文 参考訳(メタデータ) (2021-12-03T12:10:26Z) - Measurement as governance in and for responsible AI [0.0]
社会現象の測定は、社会技術システムでは必然的に至る所で行われている。
私たちは、隠れたガバナンス決定を明らかにするために測定言語を使用します。
次に、ガバナンスの文脈における公平性、堅牢性、責任の構成と責任AIについて調べます。
論文 参考訳(メタデータ) (2021-09-13T01:04:22Z) - An Objective Metric for Explainable AI: How and Why to Estimate the
Degree of Explainability [3.04585143845864]
本稿では, 客観的手法を用いて, 正しい情報のeX説明可能性の度合いを測定するための, モデルに依存しない新しい指標を提案する。
私たちは、医療とファイナンスのための2つの現実的なAIベースのシステムについて、いくつかの実験とユーザースタディを設計しました。
論文 参考訳(メタデータ) (2021-09-11T17:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。