Fugu-MT 論文翻訳(概要): Evaluating Generative AI Systems is a Social Science Measurement Challenge

論文の概要: Evaluating Generative AI Systems is a Social Science Measurement Challenge

arxiv url: http://arxiv.org/abs/2411.10939v1
Date: Sun, 17 Nov 2024 02:35:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.434402
Title: Evaluating Generative AI Systems is a Social Science Measurement Challenge
Title（参考訳）: 生成型AIシステムの評価は社会科学測定の課題である
Authors: Hanna Wallach, Meera Desai, Nicholas Pangakis, A. Feder Cooper, Angelina Wang, Solon Barocas, Alexandra Chouldechova, Chad Atalla, Su Lin Blodgett, Emily Corvi, P. Alex Dow, Jean Garcia-Gathright, Alexandra Olteanu, Stefanie Reed, Emily Sheng, Dan Vann, Jennifer Wortman Vaughan, Matthew Vogel, Hannah Washington, Abigail Z. Jacobs,
Abstract要約: 我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
参考スコア（独自算出の注目度）: 78.35388859345056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Across academia, industry, and government, there is an increasing awareness that the measurement tasks involved in evaluating generative AI (GenAI) systems are especially difficult. We argue that these measurement tasks are highly reminiscent of measurement tasks found throughout the social sciences. With this in mind, we present a framework, grounded in measurement theory from the social sciences, for measuring concepts related to the capabilities, impacts, opportunities, and risks of GenAI systems. The framework distinguishes between four levels: the background concept, the systematized concept, the measurement instrument(s), and the instance-level measurements themselves. This four-level approach differs from the way measurement is typically done in ML, where researchers and practitioners appear to jump straight from background concepts to measurement instruments, with little to no explicit systematization in between. As well as surfacing assumptions, thereby making it easier to understand exactly what the resulting measurements do and do not mean, this framework has two important implications for evaluating evaluations: First, it can enable stakeholders from different worlds to participate in conceptual debates, broadening the expertise involved in evaluating GenAI systems. Second, it brings rigor to operational debates by offering a set of lenses for interrogating the validity of measurement instruments and their resulting measurements.
Abstract（参考訳）: 学術、産業、政府全体では、生成型AI(GenAI)システムの評価に関わる測定タスクが特に困難であるという認識が高まっている。これらの測定タスクは、社会科学全体で見られる測定タスクを思い起こさせるものである、と我々は主張する。このことを念頭に、社会科学から計測理論を基礎として、GenAIシステムの能力、影響、機会、リスクに関する概念を計測する枠組みを提示する。このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。この4段階のアプローチは、研究者や実践者が背景概念から測定機器へ真っ直ぐジャンプし、その間に明確な体系化がほとんど、あるいは全くないような、MLの一般的な方法とは異なる。まず、さまざまな世界の利害関係者が概念的な議論に参加できるようにし、GenAIシステムの評価に関わる専門知識を広げることができます。第二に、測定器の妥当性を問うためのレンズセットと結果の測定結果を提供することによって、運用上の議論に厳格さをもたらす。

関連論文リスト

Towards Measurement Theory for Artificial Intelligence [0.6526824510982799]
i)システムとそれらに適用した評価方法の比較、(ii)エンジニアリングと安全科学から得られた確立された定量的リスク分析技術とフロンティアAI評価を結びつけること、(iii)AI能力として数えられるものは、私たちが使用する測定操作とスケールにどのように影響するかを前もって述べること。我々は、層状測定スタックをスケッチし、間接観測対象と直接区別し、これらの成分がAI現象の統一的、校正可能な分類への道のりを提供することを示すサインポストを作成した。
論文参考訳（メタデータ） (2025-07-08T01:52:37Z)
Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement [16.608577295968942]
本稿は, LLM心理学の新しい学際分野について紹介し, 合成する。心理学は人格、価値観、知性といった人間の心理学の無形側面を定量化する。最終的にこのレビューは、人間レベルのAIに合わせて将来の評価パラダイムを開発するための実用的な洞察を提供する。
論文参考訳（メタデータ） (2025-05-13T05:47:51Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
Position: Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,MLコミュニティが,GenAIシステム評価のための計測機器を開発する際に,社会科学の学習と図面の恩恵を受けることを論じる。我々は,GenAIの能力,行動,および影響に関する概念を測定するための,社会科学からの計測理論に基づく4段階の枠組みを提案する。
論文参考訳（メタデータ） (2025-02-01T21:09:51Z)
A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文参考訳（メタデータ） (2024-12-02T19:50:00Z)
Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems [88.35461485731162]
本研究は,実践者が表現障害を測定するために,公開されている器具を効果的に使用するのを防ぐための4種類の課題を同定する。我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を進めることである。
論文参考訳（メタデータ） (2024-11-23T22:13:38Z)
Measuring Human and AI Values based on Generative Psychometrics with Large Language Models [13.795641564238434]
AIの最近の進歩で、大きな言語モデル(LLM)が、価値測定のツールと主題の両方として登場した。この研究は、データ駆動価値測定パラダイムであるGPV(Generative Psychometrics for Values)を紹介している。
論文参考訳（メタデータ） (2024-09-18T16:26:22Z)
Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。顔認識システムの運用評価に焦点をあて,適用する。
論文参考訳（メタデータ） (2024-09-03T14:19:38Z)
Between Randomness and Arbitrariness: Some Lessons for Reliable Machine Learning at Scale [2.50194939587674]
dissertation: 信頼性を犠牲にすることなくスケーラビリティを実現するために、MLにおける偏在性のソースの定量化と緩和、不確実性推定と最適化アルゴリズムのランダム性。論文は、機械学習の信頼性測定に関する研究が法と政策の研究と密接に結びついていることの例による実証的な証明として機能する。
論文参考訳（メタデータ） (2024-06-13T19:29:37Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
A Domain-Agnostic Approach for Characterization of Lifelong Learning Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文参考訳（メタデータ） (2023-01-18T21:58:54Z)
Measuring Data [79.89948814583805]
我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
論文参考訳（メタデータ） (2022-12-09T22:10:46Z)
Active Inference in Robotics and Artificial Agents: Survey and Challenges [51.29077770446286]
我々は、状態推定、制御、計画、学習のためのアクティブ推論の最先端理論と実装についてレビューする。本稿では、適応性、一般化性、堅牢性の観点から、その可能性を示す関連する実験を紹介する。
論文参考訳（メタデータ） (2021-12-03T12:10:26Z)
Measurement as governance in and for responsible AI [0.0]
社会現象の測定は、社会技術システムでは必然的に至る所で行われている。私たちは、隠れたガバナンス決定を明らかにするために測定言語を使用します。次に、ガバナンスの文脈における公平性、堅牢性、責任の構成と責任AIについて調べます。
論文参考訳（メタデータ） (2021-09-13T01:04:22Z)
An Objective Metric for Explainable AI: How and Why to Estimate the Degree of Explainability [3.04585143845864]
本稿では, 客観的手法を用いて, 正しい情報のeX説明可能性の度合いを測定するための, モデルに依存しない新しい指標を提案する。私たちは、医療とファイナンスのための2つの現実的なAIベースのシステムについて、いくつかの実験とユーザースタディを設計しました。
論文参考訳（メタデータ） (2021-09-11T17:44:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。