論文の概要: Reducing Biases in Record Matching Through Scores Calibration
- arxiv url: http://arxiv.org/abs/2411.01685v2
- Date: Wed, 25 Jun 2025 21:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 15:38:00.065623
- Title: Reducing Biases in Record Matching Through Scores Calibration
- Title(参考訳): スコアキャリブレーションによるレコードマッチングにおけるバイアス低減
- Authors: Mohammad Hossein Moslemi, Mostafa Milani,
- Abstract要約: スコアバイアスの測定と低減のためのしきい値に依存しないフレームワークを提案する。
基準しきい値に基づく基準値の下では公平に見えても,いくつかの最先端マッチング手法がかなりのスコアバイアスを示すことを示す。
本稿では,2つのポストプロセッシングスコアキャリブレーションアルゴリズムを導入する。第1のキャリブは,ワッサーシュタイン・バリセンタを用いてグループワイズスコアの分布を調整し,人口統計学的パーティを目標とする。
第2のカラリブは、ラベルに依存したバイアス、例えば平等な機会を減らそうと予測されたラベルの条件である。
- 参考スコア(独自算出の注目度): 1.5530839016602822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Record matching is the task of identifying records that refer to the same real-world entity across datasets. While most existing models optimize for accuracy, fairness has become an important concern due to the potential for unequal outcomes across demographic groups. Prior work typically focuses on binary outcomes evaluated at fixed decision thresholds. However, such evaluations can miss biases in matching scores--biases that persist across thresholds and affect downstream tasks. We propose a threshold-independent framework for measuring and reducing score bias, defined as disparities in the distribution of matching scores across groups. We show that several state-of-the-art matching methods exhibit substantial score bias, even when appearing fair under standard threshold-based metrics. To address this, we introduce two post-processing score calibration algorithms. The first, calib, aligns group-wise score distributions using the Wasserstein barycenter, targeting demographic parity. The second, ccalib, conditions on predicted labels to further reduce label-dependent biases, such as equal opportunity. Both methods are model-agnostic and require no access to model training data. calib also offers theoretical guarantees, ensuring reduced bias with minimal deviation from original scores. Experiments across real-world datasets and matching models confirm that calib and ccalib substantially reduce score bias while minimally impacting model accuracy.
- Abstract(参考訳): レコードマッチングは、データセット間で同じ現実世界のエンティティを参照するレコードを識別するタスクである。
既存のモデルの多くは精度を最適化しているが、人口統計学的グループ間での不平等な結果をもたらす可能性があるため、公平性は重要な問題となっている。
以前の作業は、通常、固定された決定しきい値で評価されたバイナリ結果に焦点を当てます。
しかし、このような評価は、一致したスコアにおけるバイアスを見逃す可能性がある。
本稿では,グループ間での一致点の分布の相違として定義されるスコアバイアスの測定と低減のためのしきい値非依存フレームワークを提案する。
基準しきい値に基づく基準値の下では公平に見えても,いくつかの最先端マッチング手法がかなりのスコアバイアスを示すことを示す。
これを解決するために,2つの後処理スコアキャリブレーションアルゴリズムを導入する。
第1のカリブは、ワッサースタイン・バリセンターを用いて集団的スコアの分布を調整し、人口統計学的平等を目標としている。
第2のカラリブは、ラベルに依存したバイアス、例えば平等な機会を減らすために、予測されたラベルの条件である。
どちらのメソッドもモデルに依存しないため、モデルトレーニングデータへのアクセスは不要である。
カリブは理論的な保証も提供します 偏差を最小限に抑えます
実世界のデータセットとマッチングモデルを用いた実験では、カリブとカリブがスコアバイアスを著しく低減し、モデルの精度に最小限の影響を及ぼすことを確認した。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Fair-OBNC: Correcting Label Noise for Fairer Datasets [9.427445881721814]
トレーニングデータのバイアスは ラベルノイズと関連しています
このようなバイアスデータに基づいてトレーニングされたモデルは、センシティブな情報に関してバイアスを永続的に、あるいは悪化させる可能性がある。
公平性を考慮したラベルノイズ補正法であるFair-OBNCを提案する。
論文 参考訳(メタデータ) (2024-10-08T17:18:18Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Score Normalization for Demographic Fairness in Face Recognition [16.421833444307232]
有名なサンプル中心スコア正規化技術であるZ-normとT-normは、高セキュリティ動作点の公平性を向上しない。
標準Z/Tノルムを拡張し、正規化における人口統計情報を統合する。
本手法は,5つの最先端の顔認識ネットワークの全体的な公正性を改善する。
論文 参考訳(メタデータ) (2024-07-19T07:51:51Z) - Threshold-Independent Fair Matching through Score Calibration [1.5530839016602822]
我々は、スコアベースのバイナリ分類におけるバイアスを評価するために、最近のメトリクスを使用して、エンティティマッチング(EM)に新しいアプローチを導入する。
このアプローチは、しきい値の設定に依存することなく、等化オッズ、等化オッズ、人口比率などの様々なバイアスメトリクスの適用を可能にする。
本稿では,データクリーニングにおける公正性の分野,特にEM内での公正性に寄与する。
論文 参考訳(メタデータ) (2024-05-30T13:37:53Z) - Systematic analysis of the impact of label noise correction on ML
Fairness [0.0]
偏りのあるデータセットで学習したモデルの公平性を確保するため,ラベルノイズ補正手法の有効性を実証的に評価する手法を開発した。
その結果,ハイブリッドラベル雑音補正法は,予測性能と公平性との最良のトレードオフを実現することが示唆された。
論文 参考訳(メタデータ) (2023-06-28T08:08:14Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Improving Fair Training under Correlation Shifts [33.385118640843416]
特にラベルとセンシティブなグループ間のバイアスが変化すると、トレーニングされたモデルの公平性に直接影響し、悪化する可能性がある。
既存のプロセス内フェアアルゴリズムは、精度とグループフェアネスに根本的な限界があることを解析的に示す。
相関シフトを減らすために入力データをサンプリングする新しい前処理ステップを提案する。
論文 参考訳(メタデータ) (2023-02-05T07:23:35Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。