論文の概要: Mitigating Matching Biases Through Score Calibration
- arxiv url: http://arxiv.org/abs/2411.01685v1
- Date: Sun, 03 Nov 2024 21:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:36.196723
- Title: Mitigating Matching Biases Through Score Calibration
- Title(参考訳): スコアキャリブレーションによるマッチングバイアスの緩和
- Authors: Mohammad Hossein Moslemi, Mostafa Milani,
- Abstract要約: レコードマッチングにおけるバイアスの結果は、人口集団間での不平等なエラー率をもたらし、倫理的および法的懸念を提起する。
本稿では,従来の回帰モデルに適用された公正度指標を適用し,レコードマッチングにおけるすべてのしきい値の累積バイアスを評価する。
本稿では, 最適輸送理論とワッサーシュタインバリセンタを利用して, 階層群間でのマッチングスコアのバランスをとることを目的とした, ポストプロセッシングキャリブレーション手法を提案する。
- 参考スコア(独自算出の注目度): 1.5530839016602822
- License:
- Abstract: Record matching, the task of identifying records that correspond to the same real-world entities across databases, is critical for data integration in domains like healthcare, finance, and e-commerce. While traditional record matching models focus on optimizing accuracy, fairness issues, such as demographic disparities in model performance, have attracted increasing attention. Biased outcomes in record matching can result in unequal error rates across demographic groups, raising ethical and legal concerns. Existing research primarily addresses fairness at specific decision thresholds, using bias metrics like Demographic Parity (DP), Equal Opportunity (EO), and Equalized Odds (EOD) differences. However, threshold-specific metrics may overlook cumulative biases across varying thresholds. In this paper, we adapt fairness metrics traditionally applied in regression models to evaluate cumulative bias across all thresholds in record matching. We propose a novel post-processing calibration method, leveraging optimal transport theory and Wasserstein barycenters, to balance matching scores across demographic groups. This approach treats any matching model as a black box, making it applicable to a wide range of models without access to their training data. Our experiments demonstrate the effectiveness of the calibration method in reducing demographic parity difference in matching scores. To address limitations in reducing EOD and EO differences, we introduce a conditional calibration method, which empirically achieves fairness across widely used benchmarks and state-of-the-art matching methods. This work provides a comprehensive framework for fairness-aware record matching, setting the foundation for more equitable data integration processes.
- Abstract(参考訳): データベース間で同じ現実世界のエンティティに対応するレコードを識別するタスクであるレコードマッチングは、医療、金融、電子商取引といった分野におけるデータ統合に不可欠である。
従来のレコードマッチングモデルは精度の最適化に重点を置いているが、モデル性能における人口格差のような公平性の問題に注目が集まっている。
レコードマッチングにおけるバイアスの結果は、人口集団間での不平等なエラー率をもたらし、倫理的および法的懸念を提起する。
既存の研究は主に、Demographic Parity(DP)、EO(Equal Opportunity)、EOD(Equalized Odds)といったバイアスメトリクスを使用して、特定の決定しきい値の公平性に対処している。
しかし、しきい値固有のメトリクスは、様々なしきい値にまたがる累積バイアスを見落としてしまう可能性がある。
本稿では,従来の回帰モデルに適用された公正度指標を適用し,レコードマッチングにおけるすべてのしきい値の累積バイアスを評価する。
本稿では, 最適輸送理論とワッサーシュタインバリセンタを利用して, 階層群間でのマッチングスコアのバランスをとることを目的とした, ポストプロセッシングキャリブレーション手法を提案する。
このアプローチは、任意のマッチングモデルをブラックボックスとして扱い、トレーニングデータにアクセスせずに広範囲のモデルに適用できる。
本実験は, 整合性スコアの比率差を低減させるキャリブレーション法の有効性を実証した。
EODとEOの差を小さくする際の限界に対処するために、広く使われているベンチマークと最先端のマッチング方法の公平性を実証的に達成する条件キャリブレーション手法を導入する。
この作業は、フェアネスを意識したレコードマッチングのための包括的なフレームワークを提供し、より公平なデータ統合プロセスの基礎を設定します。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Fair-OBNC: Correcting Label Noise for Fairer Datasets [9.427445881721814]
トレーニングデータのバイアスは ラベルノイズと関連しています
このようなバイアスデータに基づいてトレーニングされたモデルは、センシティブな情報に関してバイアスを永続的に、あるいは悪化させる可能性がある。
公平性を考慮したラベルノイズ補正法であるFair-OBNCを提案する。
論文 参考訳(メタデータ) (2024-10-08T17:18:18Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Score Normalization for Demographic Fairness in Face Recognition [16.421833444307232]
有名なサンプル中心スコア正規化技術であるZ-normとT-normは、高セキュリティ動作点の公平性を向上しない。
標準Z/Tノルムを拡張し、正規化における人口統計情報を統合する。
本手法は,5つの最先端の顔認識ネットワークの全体的な公正性を改善する。
論文 参考訳(メタデータ) (2024-07-19T07:51:51Z) - Threshold-Independent Fair Matching through Score Calibration [1.5530839016602822]
我々は、スコアベースのバイナリ分類におけるバイアスを評価するために、最近のメトリクスを使用して、エンティティマッチング(EM)に新しいアプローチを導入する。
このアプローチは、しきい値の設定に依存することなく、等化オッズ、等化オッズ、人口比率などの様々なバイアスメトリクスの適用を可能にする。
本稿では,データクリーニングにおける公正性の分野,特にEM内での公正性に寄与する。
論文 参考訳(メタデータ) (2024-05-30T13:37:53Z) - Systematic analysis of the impact of label noise correction on ML
Fairness [0.0]
偏りのあるデータセットで学習したモデルの公平性を確保するため,ラベルノイズ補正手法の有効性を実証的に評価する手法を開発した。
その結果,ハイブリッドラベル雑音補正法は,予測性能と公平性との最良のトレードオフを実現することが示唆された。
論文 参考訳(メタデータ) (2023-06-28T08:08:14Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Improving Fair Training under Correlation Shifts [33.385118640843416]
特にラベルとセンシティブなグループ間のバイアスが変化すると、トレーニングされたモデルの公平性に直接影響し、悪化する可能性がある。
既存のプロセス内フェアアルゴリズムは、精度とグループフェアネスに根本的な限界があることを解析的に示す。
相関シフトを減らすために入力データをサンプリングする新しい前処理ステップを提案する。
論文 参考訳(メタデータ) (2023-02-05T07:23:35Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。