論文の概要: Dataset Representativeness and Downstream Task Fairness
- arxiv url: http://arxiv.org/abs/2407.00170v1
- Date: Fri, 28 Jun 2024 18:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:10:29.049746
- Title: Dataset Representativeness and Downstream Task Fairness
- Title(参考訳): データセットの表現性と下流タスクフェアネス
- Authors: Victor Borza, Andrew Estornell, Chien-Ju Ho, Bradley Malin, Yevgeniy Vorobeychik,
- Abstract要約: そのデータセット上で訓練された分類器のデータセット代表性とグループフェアネスとの間に自然な緊張関係があることを実証する。
また、過度にサンプル化されていない群は、それらの群に偏りを示す分類器を生じる可能性があることも見出した。
- 参考スコア(独自算出の注目度): 24.570493924073524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our society collects data on people for a wide range of applications, from building a census for policy evaluation to running meaningful clinical trials. To collect data, we typically sample individuals with the goal of accurately representing a population of interest. However, current sampling processes often collect data opportunistically from data sources, which can lead to datasets that are biased and not representative, i.e., the collected dataset does not accurately reflect the distribution of demographics of the true population. This is a concern because subgroups within the population can be under- or over-represented in a dataset, which may harm generalizability and lead to an unequal distribution of benefits and harms from downstream tasks that use such datasets (e.g., algorithmic bias in medical decision-making algorithms). In this paper, we assess the relationship between dataset representativeness and group-fairness of classifiers trained on that dataset. We demonstrate that there is a natural tension between dataset representativeness and classifier fairness; empirically we observe that training datasets with better representativeness can frequently result in classifiers with higher rates of unfairness. We provide some intuition as to why this occurs via a set of theoretical results in the case of univariate classifiers. We also find that over-sampling underrepresented groups can result in classifiers which exhibit greater bias to those groups. Lastly, we observe that fairness-aware sampling strategies (i.e., those which are specifically designed to select data with high downstream fairness) will often over-sample members of majority groups. These results demonstrate that the relationship between dataset representativeness and downstream classifier fairness is complex; balancing these two quantities requires special care from both model- and dataset-designers.
- Abstract(参考訳): 我々の社会は、政策評価のための国勢調査の構築から有意義な臨床試験の実施に至るまで、幅広い用途の人々のデータを収集している。
データを収集するには、典型的には、興味のある個体群を正確に表現することを目的として個人をサンプリングする。
しかし、現在のサンプリングプロセスは、しばしばデータソースから不規則にデータを収集するので、バイアスがあり、代表的ではないデータセットにつながる可能性がある。
これは、集団内のサブグループがデータセット内で下位あるいは過剰に表現され、一般化可能性に悪影響を及ぼし、そのようなデータセットを使用する下流タスク(例えば、医療的意思決定アルゴリズムにおけるアルゴリズム的バイアス)の不平等な利益と害をもたらす可能性があるためである。
本稿では,そのデータセット上で訓練された分類器のデータセット代表性とグループフェアネスの関係を評価する。
我々は,データセットの代表性と分類器フェアネスの間に自然な緊張関係があることを実証し,より優れた代表性を持つトレーニングデータセットが,より高い不公平度を有する分類器をもたらすことを実証的に観察した。
単変量分類器の場合、理論的結果の集合を通してこれがなぜ起こるのかという直感を与える。
また、過度にサンプル化されていない群は、それらの群に偏りを示す分類器を生じる可能性があることも見出した。
最後に、フェアネスを意識したサンプリング戦略(すなわち、下流のフェアネスの高いデータを選択するために特別に設計されたもの)が、多数派のメンバをオーバーサンプリングすることが多いことを観察する。
これらの結果は、データセット代表性と下流分類器フェアネスの関係が複雑であることを示し、これら2つの量のバランスをとるには、モデル設計者とデータセット設計者の双方による特別なケアが必要である。
関連論文リスト
- Group-blind optimal transport to group parity and its constrained variants [6.70948761466883]
我々は、ソースデータ中の両方のグループの特徴分布を整列する単一のグループ盲投影マップを設計する。
情報源データは人口の偏りのない表現であると仮定する。
合成データと実データについて数値的な結果を示す。
論文 参考訳(メタデータ) (2023-10-17T17:14:07Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Deep Learning on a Healthy Data Diet: Finding Important Examples for
Fairness [15.210232622716129]
データ駆動予測ソリューションは、主に商用アプリケーションで使われているが、バイアスやステレオタイプに悩まされる傾向がある。
データ拡張は、トレーニングデータセットに反実例を追加することで、性別バイアスを低減する。
拡張データセットのいくつかの例は、公平性には重要でも有害でもないことを示します。
論文 参考訳(メタデータ) (2022-11-20T22:42:30Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Contrastive Examples for Addressing the Tyranny of the Majority [83.93825214500131]
我々は,グループメンバーシップを介在する,オリジナルのデータセットと新たなデータポイントからなるバランスの取れたトレーニングデータセットを作成することを提案する。
コントラッシブ・サンプル(英語版)と呼ばれるこれらのデータポイントを学習するための強力なツールとして、現在の生成的敵ネットワークが重要であることを示す。
論文 参考訳(メタデータ) (2020-04-14T14:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。