論文の概要: Beyond Internal Data: Bounding and Estimating Fairness from Incomplete Data
- arxiv url: http://arxiv.org/abs/2508.13040v1
- Date: Mon, 18 Aug 2025 15:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.468756
- Title: Beyond Internal Data: Bounding and Estimating Fairness from Incomplete Data
- Title(参考訳): 内部データを超えて:不完全なデータからフェアネスを推定する
- Authors: Varsha Ramineni, Hossein A. Rahmani, Emine Yilmaz, David Barber,
- Abstract要約: 貸付、雇用、医療といった高度な領域では、AIシステムの公平性を保証することが重要である。
業界設定では、法とプライバシーに関する懸念は、集団格差を評価するために必要な人口統計データの収集を制限する。
我々の研究は、そのような利用可能な別のデータを活用して、完全なデータがアクセスできないときにモデルフェアネスを見積もることを目指している。
- 参考スコア(独自算出の注目度): 26.037607208689977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring fairness in AI systems is critical, especially in high-stakes domains such as lending, hiring, and healthcare. This urgency is reflected in emerging global regulations that mandate fairness assessments and independent bias audits. However, procuring the necessary complete data for fairness testing remains a significant challenge. In industry settings, legal and privacy concerns restrict the collection of demographic data required to assess group disparities, and auditors face practical and cultural challenges in gaining access to data. In practice, data relevant for fairness testing is often split across separate sources: internal datasets held by institutions with predictive attributes, and external public datasets such as census data containing protected attributes, each providing only partial, marginal information. Our work seeks to leverage such available separate data to estimate model fairness when complete data is inaccessible. We propose utilising the available separate data to estimate a set of feasible joint distributions and then compute the set plausible fairness metrics. Through simulation and real experiments, we demonstrate that we can derive meaningful bounds on fairness metrics and obtain reliable estimates of the true metric. Our results demonstrate that this approach can serve as a practical and effective solution for fairness testing in real-world settings where access to complete data is restricted.
- Abstract(参考訳): AIシステムにおける公正性の確保は、特に貸付、雇用、医療といった高度な領域において重要である。
この緊急性は、公正性評価と独立バイアス監査を義務付ける世界的な規制に反映されている。
しかし、フェアネステストに必要な完全なデータを取得することは、依然として大きな課題である。
業界設定では、法的およびプライバシー上の懸念により、グループ格差を評価するために必要な人口統計データの収集が制限され、監査役はデータにアクセスするための実践的および文化的課題に直面している。
実際には、フェアネステストに関連するデータは、予測属性を持つ機関によって保持される内部データセットと、保護属性を含む国勢調査データのような外部の公開データセット、それぞれが部分的かつ限界的な情報のみを提供する、という2つのソースに分割されることが多い。
我々の研究は、そのような利用可能な別のデータを活用して、完全なデータがアクセスできないときにモデルフェアネスを見積もることを目指している。
本稿では、利用可能な分離データを用いて、実行可能な関節分布の集合を推定し、設定された可視公正度メトリクスを計算することを提案する。
シミュレーションと実実験により、公正度測定値の有意な境界を導出し、真の計量値の信頼できる推定値を得ることができることを示した。
提案手法は, 完全データへのアクセスが制限された実環境において, フェアネステストのための実用的で効果的なソリューションとして有効であることを示す。
関連論文リスト
- Beyond Internal Data: Constructing Complete Datasets for Fairness Testing [26.037607208689977]
この研究は、人口統計を含む完全なデータセットがアクセスできない場合に、分類器の公平性を評価することに重点を置いている。
人口統計情報を含む完全合成データを構築するために,異なる重なり合うデータセットを活用することを提案する。
合成データの忠実度を実データと比較することにより検証し、そのような合成データ上でのテストから得られた公正度指標が実データから得られたものと一致していることを実証的に示す。
論文 参考訳(メタデータ) (2025-07-24T16:35:42Z) - Targeted Learning for Data Fairness [52.59573714151884]
データ生成プロセス自体の公平性を評価することにより、公平性推論を拡張する。
我々は、人口統計学的平等、平等機会、条件付き相互情報から推定する。
提案手法を検証するため,いくつかのシミュレーションを行い,実データに適用する。
論文 参考訳(メタデータ) (2025-02-06T18:51:28Z) - FairJob: A Real-World Dataset for Fairness in Online Systems [2.3622884172290255]
広告における求人推薦のためのフェアネス対応データセットを提案する。
収集され、プライバシー基準とビジネス機密に準拠する準備が整った。
匿名化され、センシティブな属性のプロキシを含むにもかかわらず、データセットは予測力を保持します。
論文 参考訳(メタデータ) (2024-07-03T12:30:39Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Assessing Fairness in the Presence of Missing Data [2.3605348648054463]
完全ケースのみを用いて評価された任意のモデルに対して,完全データ領域における公平性を推定する問題について検討する。
我々の研究は、不完全データの解析における公正性保証に関する最初の既知の理論結果を提供する。
論文 参考訳(メタデータ) (2021-12-07T17:51:26Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。