論文の概要: Addressing Discretization-Induced Bias in Demographic Prediction
- arxiv url: http://arxiv.org/abs/2405.16762v1
- Date: Mon, 27 May 2024 02:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:16:00.400610
- Title: Addressing Discretization-Induced Bias in Demographic Prediction
- Title(参考訳): 離散化誘導バイアスの復号化予測への応用
- Authors: Evan Dong, Aaron Schein, Yixin Wang, Nikhil Garg,
- Abstract要約: アーグマックスのラベル付けは、ノースカロライナ州で28.2%の差でアフリカ系アメリカ人の有権者をかなり下回っていることを示している。
このバイアスは、そのようなラベルを使用する下流タスクに重大な影響を与える可能性がある。
このバイアスを取り除くために、$textitjoint Optimization$ approach と tractable $textitdata-driven thresholding$ を導入します。
- 参考スコア(独自算出の注目度): 18.427077352120254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Racial and other demographic imputation is necessary for many applications, especially in auditing disparities and outreach targeting in political campaigns. The canonical approach is to construct continuous predictions -- e.g., based on name and geography -- and then to $\textit{discretize}$ the predictions by selecting the most likely class (argmax). We study how this practice produces $\textit{discretization bias}$. In particular, we show that argmax labeling, as used by a prominent commercial voter file vendor to impute race/ethnicity, results in a substantial under-count of African-American voters, e.g., by 28.2% points in North Carolina. This bias can have substantial implications in downstream tasks that use such labels. We then introduce a $\textit{joint optimization}$ approach -- and a tractable $\textit{data-driven thresholding}$ heuristic -- that can eliminate this bias, with negligible individual-level accuracy loss. Finally, we theoretically analyze discretization bias, show that calibrated continuous models are insufficient to eliminate it, and that an approach such as ours is necessary. Broadly, we warn researchers and practitioners against discretizing continuous demographic predictions without considering downstream consequences.
- Abstract(参考訳): 人種的およびその他の人口統計上の差し押さえは、多くの応用、特に政治的キャンペーンにおける格差の監査やアウトリーチ・ターゲティングにおいて必要である。
標準的なアプローチは、名前と地理に基づいて連続的な予測(例えば、名前と地理に基づいて)を構築し、次に最も可能性の高いクラス(argmax)を選択して予測を$\textit{discretize} にする。
我々は、このプラクティスがどのように$\textit{discretization bias}$を生成するかを研究する。
特に、argmaxラベリングは、著名な商業投票者ファイルベンダーが人種や倫理を暗示するために用いているが、ノースカロライナ州では28.2%の差でアフリカ系アメリカ人の有権者をかなり下回っていることを示している。
このバイアスは、そのようなラベルを使用する下流タスクに重大な影響を与える可能性がある。
次に、$\textit{joint optimization}$ approach と $\textit{data-driven thresholding}$ heuristic を導入します。
最後に, 離散化バイアスを理論的に解析し, キャリブレーションされた連続モデルでは除去に不十分であり, われわれのようなアプローチが必要であることを示す。
研究者や実践者たちは、下流の結果を考慮せずに、連続的な人口統計予測を識別しないことを警告します。
関連論文リスト
- Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization [13.773597081543185]
本稿では,組込みのクラスワイドな分散に基づく新しいデバイアス正規化手法を提案する。
提案手法は属性ラベルを必要とせず,属性をターゲットとせず,既存のデバイアス手法の欠点に対処する。
論文 参考訳(メタデータ) (2024-09-29T03:56:50Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Estimating Racial Disparities When Race is Not Observed [3.0931877196387196]
本稿では,人種間の格差を推定する新しいモデルについて,人種の指標変数として姓を用いて紹介する。
ノースカロライナの投票者ファイルに基づく検証調査では、BISG+BIRDiEは政党登録における人種的違いを推定した場合、エラーを最大84%削減している。
提案手法を適用し,米国内国歳入庁の個人レベルの税率データを用いて住宅ローン利子控除の恩恵を受ける者の人種差を推定する。
論文 参考訳(メタデータ) (2023-03-05T04:46:16Z) - Filtering Context Mitigates Scarcity and Selection Bias in Political
Ideology Prediction [42.31457743674423]
政治イデオロギー予測(PIP)のための新しい教師付き学習手法を提案する。
私たちのモデルは、5%のバイアスデータでトレーニングしても、予測を出力できることを示します。
論文 参考訳(メタデータ) (2023-02-01T04:34:48Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Almost Tight L0-norm Certified Robustness of Top-k Predictions against
Adversarial Perturbations [78.23408201652984]
トップk予測は、マシンラーニング・アズ・ア・サービス、レコメンダ・システム、Web検索など、多くの現実世界のアプリケーションで使用されている。
我々の研究はランダム化平滑化に基づいており、入力をランダム化することで、証明可能なロバストな分類器を構築する。
例えば、攻撃者がテスト画像の5ピクセルを任意に摂動できる場合に、ImageNet上で69.2%の認定トップ3精度を達成する分類器を構築することができる。
論文 参考訳(メタデータ) (2020-11-15T21:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。