論文の概要: Feature Importance Disparities for Data Bias Investigations
- arxiv url: http://arxiv.org/abs/2303.01704v4
- Date: Mon, 3 Jun 2024 16:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 23:35:51.777404
- Title: Feature Importance Disparities for Data Bias Investigations
- Title(参考訳): データバイアス調査における特徴的重要性の相違
- Authors: Peter W. Chang, Leor Fishman, Seth Neel,
- Abstract要約: 分類器における下流バイアスの1つの原因は、トレーニングデータに存在するバイアスであると広く考えられている。
保護された機能と保護されていない機能からなるデータセットの$X$、結果の$y$、および$X$の$y$を予測するregressor $h$を示す。
機械学習コミュニティは、指数関数的に大きなサブグループクラスでさえ、大きなFID値を持つサブグループを効率的に見つけることができる。
- 参考スコア(独自算出の注目度): 2.184775414778289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is widely held that one cause of downstream bias in classifiers is bias present in the training data. Rectifying such biases may involve context-dependent interventions such as training separate models on subgroups, removing features with bias in the collection process, or even conducting real-world experiments to ascertain sources of bias. Despite the need for such data bias investigations, few automated methods exist to assist practitioners in these efforts. In this paper, we present one such method that given a dataset $X$ consisting of protected and unprotected features, outcomes $y$, and a regressor $h$ that predicts $y$ given $X$, outputs a tuple $(f_j, g)$, with the following property: $g$ corresponds to a subset of the training dataset $(X, y)$, such that the $j^{th}$ feature $f_j$ has much larger (or smaller) influence in the subgroup $g$, than on the dataset overall, which we call feature importance disparity (FID). We show across $4$ datasets and $4$ common feature importance methods of broad interest to the machine learning community that we can efficiently find subgroups with large FID values even over exponentially large subgroup classes and in practice these groups correspond to subgroups with potentially serious bias issues as measured by standard fairness metrics.
- Abstract(参考訳): 分類器における下流バイアスの1つの原因は、トレーニングデータに存在するバイアスであると広く考えられている。
このようなバイアスの是正には、サブグループで別々のモデルをトレーニングしたり、収集プロセスでバイアスのある特徴を取り除いたり、実際の実験を行ってバイアスの源を突き止めたりといったコンテキスト依存的な介入が含まれる。
このようなデータバイアスの調査の必要性にもかかわらず、これらの取り組みの実践者を支援する自動化された方法はほとんどない。
本稿では、保護された機能と保護されていない機能からなるデータセット$X$と、保護されていない機能からなるデータセット$y$と、与えられた$X$を予測するregressor$h$と、トレーニングデータセットのサブセットである$(X, y)$に相当する$(f_j, g)$を出力する。
機械学習コミュニティは、指数関数的に大きなサブグループクラスでさえ、大きなFID値を持つサブグループを効率的に見つけることができ、実際、これらのグループは、標準の公正度測定値によって測定された、潜在的に深刻なバイアスのあるサブグループに対応することができる。
関連論文リスト
- Discover and Mitigate Multiple Biased Subgroups in Image Classifiers [45.96784278814168]
機械学習モデルは、分散データではうまく機能するが、トレーニングデータに不足している偏りのあるサブグループでは失敗することが多い。
この問題に対処するために,分解,解釈,緩和(DIM)を提案する。
提案手法では,画像特徴を複数のサブグループを表す複数のコンポーネントに分解する。
論文 参考訳(メタデータ) (2024-03-19T14:44:54Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Temperature Schedules for Self-Supervised Contrastive Methods on
Long-Tail Data [87.77128754860983]
本稿では,ロングテールデータ上での自己教師付き学習(SSL)の行動分析を行う。
大きな$tau$はグループ的な差別を強調するのに対し、小さな$tau$はより高いインスタンスの差別をもたらす。
動的$tau$を用いて、簡単なコサインスケジュールが学習表現に大きな改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-23T20:37:25Z) - Leveraging Structure for Improved Classification of Grouped Biased Data [8.121462458089143]
データポイントが自然にグループ化されるアプリケーションに対する半教師付きバイナリ分類を検討する。
我々は、この構造を明示的に活用し、最適、グループ対応、確率出力の分類器を学習する半教師付きアルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-12-07T15:18:21Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - BiasEnsemble: Revisiting the Importance of Amplifying Bias for Debiasing [31.665352191081357]
Debiasing”は、データセットバイアスの影響を受けにくいように分類器をトレーニングすることを目的としている。
$f_B$はバイアス整合サンプルにフォーカスするよう訓練され、$f_D$は主にバイアス整合サンプルでトレーニングされる。
本稿では,バイアス分散サンプルを除去する新しいバイアス付きサンプル選択法であるBiasEnsembleを提案する。
論文 参考訳(メタデータ) (2022-05-29T07:55:06Z) - Addressing Missing Sources with Adversarial Support-Matching [8.53946780558779]
そこで本研究では,データ内の2段階階層の2段階に,データの欠如が関係しているシナリオについて検討する。
アルゴリズム的公正性から保護された群の概念に触発され、この第2階層によって彫られた分割を「部分群」と呼ぶ。
私たちは、サブグループに不変な表現を学ぶために、"deployment set"と呼ばれる追加で多様だがラベルなしのデータセットを使用します。
論文 参考訳(メタデータ) (2022-03-24T16:19:19Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。