論文の概要: Measuring the right thing: justifying metrics in AI impact assessments
- arxiv url: http://arxiv.org/abs/2504.05007v1
- Date: Mon, 07 Apr 2025 12:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:13.436610
- Title: Measuring the right thing: justifying metrics in AI impact assessments
- Title(参考訳): 正しいことを計測する:AIのインパクトアセスメントにおけるメトリクスの正当化
- Authors: Stefan Buijsman, Herman Veluwenkamp,
- Abstract要約: メトリクスのモチベーションを適切に確保するための2段階のアプローチを提案する。
まず、概念を綴り出さなければならない(例えば、Rawlsian fairness や、連帯性としての Fairness など)。
インパクトアセスメントはメトリクスだけでなく、メトリクスを動機づける概念にも明確である、と私たちは主張しています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: AI Impact Assessments are only as good as the measures used to assess the impact of these systems. It is therefore paramount that we can justify our choice of metrics in these assessments, especially for difficult to quantify ethical and social values. We present a two-step approach to ensure metrics are properly motivated. First, a conception needs to be spelled out (e.g. Rawlsian fairness or fairness as solidarity) and then a metric can be fitted to that conception. Both steps require separate justifications, as conceptions can be judged on how well they fit with the function of, for example, fairness. We argue that conceptual engineering offers helpful tools for this step. Second, metrics need to be fitted to a conception. We illustrate this process through an examination of competing fairness metrics to illustrate that here the additional content that a conception offers helps us justify the choice for a specific metric. We thus advocate that impact assessments are not only clear on their metrics, but also on the conceptions that motivate those metrics.
- Abstract(参考訳): AIインパクトアセスメントは、これらのシステムの影響を評価するのに使用される指標に匹敵する。
したがって、これらの評価においてメトリクスの選択を正当化することは、特に倫理的・社会的価値の定量化が難しいために最重要である。
メトリクスのモチベーションを適切に確保するための2段階のアプローチを提案する。
まず、概念を綴り出さなければならない(例えば、Rawlsian fairness あるいは、連帯性としての公正性)。
どちらのステップも、例えば公正性の関数にどのように適合するかを、概念が判断できるため、別個の正当化が必要である。
我々は、概念工学がこのステップに有用なツールを提供すると論じている。
第二に、メトリクスは概念に適合する必要があります。
このプロセスは、競合する公正度メトリクスの検証を通じて説明され、ここでは、概念が提供する追加コンテンツが、特定のメトリックの選択を正当化するのに役立ちます。
したがって、インパクトアセスメントはメトリクスだけでなく、メトリクスを動機づける概念にも明確である、と我々は主張する。
関連論文リスト
- Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文 参考訳(メタデータ) (2024-11-17T02:35:30Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - Investigating Content Planning for Navigating Trade-offs in
Knowledge-Grounded Dialogue [8.986338385828011]
応答生成の前に明確なコンテンツプランニングは、モデルがこの課題に対処するのに役立ちますか?
コンテンツプランニングは有望であることを示しているが、このトレードオフを実際にナビゲートできるかどうかについては、結果がまちまちだ。
自動測度への過度な適合と、これらの測度を人間の判断に向け、よりよく校正する必要があることから、これがどのように引き起こされるかについて議論する。
論文 参考訳(メタデータ) (2024-02-03T08:16:39Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - On Quantitative Evaluations of Counterfactuals [88.42660013773647]
本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
論文 参考訳(メタデータ) (2021-10-30T05:00:36Z) - Deconstruct to Reconstruct a Configurable Evaluation Metric for
Open-Domain Dialogue Systems [36.73648357051916]
オープンドメイン対話では、全体的な品質は、関連性、特異性、共感など、さまざまな側面から成り立っている。
既存のメトリクスは、そのような柔軟性に対処するように設計されていません。
そこで本研究では,USL-Hと呼ばれる単一メトリクスを得るために,各アスペクトを合成する簡単な手法を提案する。
論文 参考訳(メタデータ) (2020-11-01T11:34:50Z) - Learning to Evaluate Perception Models Using Planner-Centric Metrics [104.33349410009161]
本稿では,自動運転のタスクに特化して,3次元物体検出の原理的基準を提案する。
私たちのメトリクスは、他のメトリクスが設計によって課す多くの間違いを罰します。
人間の評価では,基準基準値と基準値が一致しないシーンを生成し,基準値の79%が人間の側にあることがわかった。
論文 参考訳(メタデータ) (2020-04-19T02:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。