論文の概要: When Fairness Metrics Disagree: Evaluating the Reliability of Demographic Fairness Assessment in Machine Learning
- arxiv url: http://arxiv.org/abs/2604.15038v1
- Date: Thu, 16 Apr 2026 14:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.93669
- Title: When Fairness Metrics Disagree: Evaluating the Reliability of Demographic Fairness Assessment in Machine Learning
- Title(参考訳): フェアネスメトリクスが診断されたとき--機械学習におけるデモグラフィックフェアネスアセスメントの信頼性の評価
- Authors: Khalid Adnan Alsayed,
- Abstract要約: 機械学習モデルにおける階層バイアスの系統的マルチメトリック分析を行うことにより、公平性評価の整合性を検討する。
結果から,評価値の妥当性は指標の選択によって大きく異なっており,モデルバイアスに関する矛盾した結論が得られた。
これらの知見は、現在の公正度評価の実践において重要な限界を浮き彫りにしており、信頼性の高いバイアス評価にはシングルメトリックレポートが不十分であることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of fairness in machine learning systems has become a central concern in high-stakes applications, including biometric recognition, healthcare decision-making, and automated risk assessment. Existing approaches typically rely on a small number of fairness metrics to assess model behaviour across group partitions, implicitly assuming that these metrics provide consistent and reliable conclusions. However, different fairness metrics capture distinct statistical properties of model performance and may therefore produce conflicting assessments when applied to the same system. In this work, we investigate the consistency of fairness evaluation by conducting a systematic multi-metric analysis of demographic bias in machine learning models. Using face recognition as a controlled experimental setting, we evaluate model performance across multiple group partitions under a range of commonly used fairness metrics, including error-rate disparities and performance-based measures. Our results demonstrate that fairness assessments can vary significantly depending on the choice of metrics, leading to contradictory conclusions regarding model bias. To quantify this phenomenon, we introduce the Fairness Disagreement Index (FDI), a measure designed to capture the degree of inconsistency across fairness metrics. We further show that disagreement remains high across thresholds and model configurations. These findings highlight a critical limitation in current fairness evaluation practices and suggest that single-metric reporting is insufficient for reliable bias assessment.
- Abstract(参考訳): 機械学習システムにおける公正性の評価は、バイオメトリック認識、医療意思決定、自動リスクアセスメントなど、高度な応用において中心的な関心事となっている。
既存のアプローチは通常、グループパーティション間のモデル動作を評価するために少数の公正度メトリクスに依存しており、これらのメトリクスが一貫性と信頼性のある結論を提供すると暗黙的に仮定している。
しかし、異なる公正度尺度はモデル性能の異なる統計特性を捉え、従って同じシステムに適用した場合に矛盾する評価を生じさせる可能性がある。
本研究では,機械学習モデルにおける階層バイアスの系統的マルチメトリック分析を行うことにより,公平性評価の整合性を検討する。
顔認証を制御された実験環境として使用し,複数のグループ分割におけるモデル性能を,誤差率の相違や性能に基づく測定値を含む,一般的なフェアネス尺度の範囲で評価する。
結果から,評価値の妥当性は指標の選択によって大きく異なっており,モデルバイアスに関する矛盾した結論が得られた。
この現象を定量化するために、フェアネス指標間での不整合度を捉えるために設計されたFDI(Fairness Disagreement Index)を導入する。
さらに、閾値とモデル構成の相違が依然として高いことを示す。
これらの知見は、現在の公正度評価の実践において重要な限界を浮き彫りにしており、信頼性の高いバイアス評価にはシングルメトリックレポートが不十分であることを示唆している。
関連論文リスト
- Why Aggregate Accuracy is Inadequate for Evaluating Fairness in Law Enforcement Facial Recognition Systems [0.0]
本稿では,顔認証システムの公平性と信頼性を評価する上で,集約精度は不十分な指標である,と論じる。
経験的観察により、全体的な精度が類似したシステムは、かなり異なる公正プロファイルを示すことが示されている。
公正な評価アプローチとモデルに依存しない監査戦略の重要性を強調している。
論文 参考訳(メタデータ) (2026-03-30T16:56:54Z) - Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness [49.35494016290887]
関係する人口を表わすが、実世界の格差を反映するデータである場合、サブグループ間での平等なパフォーマンスは、信頼できない公平さの尺度であることを示す。
本フレームワークでは, 因果関係の明示的な仮定と分析を相補して, 相反や分布変化の制御を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:40:31Z) - Fairness Evaluation with Item Response Theory [10.871079276188649]
本稿では機械学習(ML)モデルにおける公平性を評価するための新しいFair-IRTフレームワークを提案する。
項目特性曲線(ICC)の詳細な説明は、特定の個人に対して提供される。
公平性評価ツールとしてのこのフレームワークの有効性を実証する実験を行った。
論文 参考訳(メタデータ) (2024-10-20T22:25:20Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。