論文の概要: Statistical Inference for Fairness Auditing
- arxiv url: http://arxiv.org/abs/2305.03712v2
- Date: Thu, 8 Jun 2023 05:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 19:02:34.544409
- Title: Statistical Inference for Fairness Auditing
- Title(参考訳): 公正監査のための統計的推論
- Authors: John J. Cherian, Emmanuel J. Cand\`es
- Abstract要約: 我々は、このタスクを複数の仮説テストの観点から「フェアネス監査」とみなしている。
ブートストラップを用いて,グループ間のパフォーマンス格差を同時にバインドする方法を示す。
本手法は,モデルアンダーパフォーマンスの影響を受けるサブポピュレーションのフラグ付けや,モデルが適切に機能するサブポピュレーションの認証に利用できる。
- 参考スコア(独自算出の注目度): 4.318555434063274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Before deploying a black-box model in high-stakes problems, it is important
to evaluate the model's performance on sensitive subpopulations. For example,
in a recidivism prediction task, we may wish to identify demographic groups for
which our prediction model has unacceptably high false positive rates or
certify that no such groups exist. In this paper, we frame this task, often
referred to as "fairness auditing," in terms of multiple hypothesis testing. We
show how the bootstrap can be used to simultaneously bound performance
disparities over a collection of groups with statistical guarantees. Our
methods can be used to flag subpopulations affected by model underperformance,
and certify subpopulations for which the model performs adequately. Crucially,
our audit is model-agnostic and applicable to nearly any performance metric or
group fairness criterion. Our methods also accommodate extremely rich -- even
infinite -- collections of subpopulations. Further, we generalize beyond
subpopulations by showing how to assess performance over certain distribution
shifts. We test the proposed methods on benchmark datasets in predictive
inference and algorithmic fairness and find that our audits can provide
interpretable and trustworthy guarantees.
- Abstract(参考訳): ブラックボックスモデルを高精細な問題に展開する前には、センシティブなサブポピュレーションでモデルの性能を評価することが重要である。
例えば、レシディズム予測タスクでは、予測モデルが認識不能な高い偽陽性率を持つ人口集団を識別したり、そのようなグループは存在しないことを証明したりします。
本稿では,複数の仮説テストの観点から,このタスクを「フェアネス監査」と呼ぶことが多い。
統計的保証のあるグループ群に対して,ブートストラップを用いて性能格差を同時にバインドする方法を示す。
本手法は,モデルアンダーパフォーマンスの影響を受けるサブポピュレーションのフラグ付けや,モデルが適切に機能するサブポピュレーションの認証に利用できる。
当社の監査はモデルに依存しないものであり、ほぼすべてのパフォーマンス指標やグループフェアネス基準に適用可能です。
私たちのメソッドは、サブポピュレーションのコレクションも非常にリッチで、無限でもあります。
さらに, ある分布シフトに対する性能評価方法を示すことで, サブポピュレーションを超えて一般化する。
提案手法を予測的推論とアルゴリズムフェアネスのベンチマークデータセット上で検証し,監査が解釈可能かつ信頼性の高い保証を提供できることを確認した。
関連論文リスト
- Trustworthy Classification through Rank-Based Conformal Prediction Sets [9.559062601251464]
本稿では,分類モデルに適したランクベーススコア関数を用いた新しいコンフォメーション予測手法を提案する。
提案手法は,そのサイズを管理しながら,所望のカバレッジ率を達成する予測セットを構築する。
コントリビューションには、新しい共形予測法、理論的解析、経験的評価が含まれる。
論文 参考訳(メタデータ) (2024-07-05T10:43:41Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - A Brief Tutorial on Sample Size Calculations for Fairness Audits [6.66743248310448]
本チュートリアルでは、フェアネス監査に必要なサブグループサンプルサイズを決定する方法についてのガイダンスを提供する。
本研究は,2値分類モデルと混同行列の要約として導出された多重公平度指標の監査に適用できる。
論文 参考訳(メタデータ) (2023-12-07T22:59:12Z) - Consistent Range Approximation for Fair Predictive Modeling [10.613912061919775]
このフレームワークは、トレーニング中の外部データの可用性に関わらず、ターゲット個体数に対して確実に公正な予測モデルを構築する。
このフレームワークの有効性は、実データの評価を通じて実証され、既存の最先端手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-21T08:27:49Z) - Estimating Structural Disparities for Face Models [54.062512989859265]
機械学習では、異なるサブ人口間でのモデルの性能や結果の差を測定することで、しばしば異質度の測定が定義される。
本研究では、人間の顔に訓練されたコンピュータビジョンモデルや、顔属性予測や影響推定などのタスクについて、そのような分析を行う。
論文 参考訳(メタデータ) (2022-04-13T05:30:53Z) - Measuring Fairness Under Unawareness of Sensitive Attributes: A
Quantification-Based Approach [131.20444904674494]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
定量化手法は, フェアネスと無意識の問題に対処するのに特に適していることを示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z) - Testing Group Fairness via Optimal Transport Projections [12.972104025246091]
提案試験は, 摂動に偏りを示すか, データのランダム性に起因するかを評価するための, 柔軟な, 解釈可能な, 統計的に厳密なツールである。
グループフェアネスを定義する複数の影響基準から生じる可能性のある統計的課題は、グループフェア確率モデルの集合に経験的測度を投影することによって、都合よく取り組まれる。
提案フレームワークは,複数属性の合成固有フェアネス仮説およびフェアネスの試験にも使用することができる。
論文 参考訳(メタデータ) (2021-06-02T10:51:39Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。
この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。
本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文 参考訳(メタデータ) (2020-06-08T00:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。