論文の概要: Beyond Internal Data: Constructing Complete Datasets for Fairness Testing
- arxiv url: http://arxiv.org/abs/2507.18561v1
- Date: Thu, 24 Jul 2025 16:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.124016
- Title: Beyond Internal Data: Constructing Complete Datasets for Fairness Testing
- Title(参考訳): 内部データを超えて:フェアネステストのための完全なデータセットを構築する
- Authors: Varsha Ramineni, Hossein A. Rahmani, Emine Yilmaz, David Barber,
- Abstract要約: この研究は、人口統計を含む完全なデータセットがアクセスできない場合に、分類器の公平性を評価することに重点を置いている。
人口統計情報を含む完全合成データを構築するために,異なる重なり合うデータセットを活用することを提案する。
合成データの忠実度を実データと比較することにより検証し、そのような合成データ上でのテストから得られた公正度指標が実データから得られたものと一致していることを実証的に示す。
- 参考スコア(独自算出の注目度): 26.037607208689977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI becomes prevalent in high-risk domains and decision-making, it is essential to test for potential harms and biases. This urgency is reflected by the global emergence of AI regulations that emphasise fairness and adequate testing, with some mandating independent bias audits. However, procuring the necessary data for fairness testing remains a significant challenge. Particularly in industry settings, legal and privacy concerns restrict the collection of demographic data required to assess group disparities, and auditors face practical and cultural challenges in gaining access to data. Further, internal historical datasets are often insufficiently representative to identify real-world biases. This work focuses on evaluating classifier fairness when complete datasets including demographics are inaccessible. We propose leveraging separate overlapping datasets to construct complete synthetic data that includes demographic information and accurately reflects the underlying relationships between protected attributes and model features. We validate the fidelity of the synthetic data by comparing it to real data, and empirically demonstrate that fairness metrics derived from testing on such synthetic data are consistent with those obtained from real data. This work, therefore, offers a path to overcome real-world data scarcity for fairness testing, enabling independent, model-agnostic evaluation of fairness, and serving as a viable substitute where real data is limited.
- Abstract(参考訳): リスクの高いドメインや意思決定でAIが普及するにつれて、潜在的な害やバイアスをテストすることが不可欠である。
この緊急性は、公正性と適切なテストを強調するAI規制の世界的な台頭によって反映され、いくつかの独立したバイアス監査が義務付けられている。
しかし、公平性テストに必要なデータを取得することは、依然として大きな課題である。
特に業界環境では、法的およびプライバシー上の懸念により、グループ格差を評価するために必要な人口統計データの収集が制限され、監査役はデータにアクセスするための実践的および文化的課題に直面している。
さらに、内部の歴史的データセットは、しばしば現実世界のバイアスを特定するために不十分に代表される。
この研究は、人口統計を含む完全なデータセットがアクセスできない場合に、分類器の公平性を評価することに重点を置いている。
人口統計情報を含み,保護属性とモデル特徴の基盤となる関係を正確に反映した完全合成データを構築するために,重なり合ったデータセットを活用することを提案する。
合成データの忠実度を実データと比較することにより検証し、そのような合成データ上でのテストから得られた公正度指標が実データから得られたものと一致していることを実証的に示す。
この研究は、フェアネステストの実際のデータ不足を克服し、フェアネスの独立的モデルに依存しない評価を可能にし、実際のデータが制限された実行可能な代替品として機能する。
関連論文リスト
- Data-Driven Fairness Generalization for Deepfake Detection [1.2221087476416053]
ディープフェイク検出のためのトレーニングデータのバイアスは、異なるグループ間で異なるレベルのパフォーマンスをもたらす可能性がある。
本稿では,合成データセットとモデル最適化を利用して,深度検出における公平性一般化問題に対処するためのデータ駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T01:28:35Z) - Toward Fairer Face Recognition Datasets [69.04239222633795]
顔認識と検証は、ディープ表現の導入によってパフォーマンスが向上したコンピュータビジョンタスクである。
実際のトレーニングデータセットにおける顔データとバイアスのセンシティブな性格による倫理的、法的、技術的な課題は、彼らの開発を妨げる。
生成されたトレーニングデータセットに階層属性のバランス機構を導入することにより、公平性を促進する。
論文 参考訳(メタデータ) (2024-06-24T12:33:21Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Data Representativeness in Accessibility Datasets: A Meta-Analysis [7.6597163467929805]
障害のある人と高齢者が作成したデータセットをレビューする。
アクセシビリティデータセットは様々な年齢を表すが、性別と人種の差がある。
われわれの努力が、AIに注入されたシステムに、余分なコミュニティをもっと取り入れる可能性の空間を広げることを願っている。
論文 参考訳(メタデータ) (2022-07-16T23:32:19Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。