論文の概要: Oversampling Higher-Performing Minorities During Machine Learning Model
Training Reduces Adverse Impact Slightly but Also Reduces Model Accuracy
- arxiv url: http://arxiv.org/abs/2304.13933v1
- Date: Thu, 27 Apr 2023 02:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 14:23:43.465964
- Title: Oversampling Higher-Performing Minorities During Machine Learning Model
Training Reduces Adverse Impact Slightly but Also Reduces Model Accuracy
- Title(参考訳): 機械学習モデルトレーニング中の高性能マイノリティのオーバーサンプリングによる副作用の低減とモデル精度の低減
- Authors: Louis Hickman, Jason Kuruzovich, Vincent Ng, Kofi Arhin, Danielle
Wilson
- Abstract要約: トレーニングデータにおける有害影響率を操作するために,少数者(黒人およびヒスパニック系)を体系的に過小評価し,過大評価した。
その結果,トレーニングデータによる影響は,MLモデルの悪影響と線形に関連していることがわかった。
本研究は, 自己申告書と面接書にまたがる一貫した効果を観察し, 実測, 合成観察をオーバーサンプリングした。
- 参考スコア(独自算出の注目度): 18.849426971487077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Organizations are increasingly adopting machine learning (ML) for personnel
assessment. However, concerns exist about fairness in designing and
implementing ML assessments. Supervised ML models are trained to model patterns
in data, meaning ML models tend to yield predictions that reflect subgroup
differences in applicant attributes in the training data, regardless of the
underlying cause of subgroup differences. In this study, we systematically
under- and oversampled minority (Black and Hispanic) applicants to manipulate
adverse impact ratios in training data and investigated how training data
adverse impact ratios affect ML model adverse impact and accuracy. We used
self-reports and interview transcripts from job applicants (N = 2,501) to train
9,702 ML models to predict screening decisions. We found that training data
adverse impact related linearly to ML model adverse impact. However, removing
adverse impact from training data only slightly reduced ML model adverse impact
and tended to negatively affect ML model accuracy. We observed consistent
effects across self-reports and interview transcripts, whether oversampling
real (i.e., bootstrapping) or synthetic observations. As our study relied on
limited predictor sets from one organization, the observed effects on adverse
impact may be attenuated among more accurate ML models.
- Abstract(参考訳): 組織は人事評価に機械学習(ML)をますます採用している。
しかし、MLアセスメントの設計と実装の公平性には懸念がある。
教師付きMLモデルは、データ内のパターンをモデル化するように訓練される。つまり、MLモデルは、サブグループの違いの根底にある原因に関係なく、トレーニングデータにおけるサブグループ属性のサブグループ差を反映する予測を与える傾向にある。
本研究では,少数者(黒人およびヒスパニック系)を対象に,トレーニングデータにおける悪影響率の操作を系統的に過小評価し,トレーニングデータの悪影響比がMLモデルの悪影響と正確性に与える影響について検討した。
応募者(n=2,501)の自己報告と面接記録を用いて9,702mlモデルのトレーニングを行い,スクリーニング判断の予測を行った。
トレーニングデータによる影響は,MLモデルの悪影響と線形に関連していた。
しかし、トレーニングデータから悪影響を取り除くことは、MLモデルの悪影響をわずかに減らし、MLモデルの精度に悪影響を及ぼす傾向があった。
我々は,自己申告書と面接書にまたがる一貫した効果を観察し,実物(ブートストレッピング)のオーバーサンプリングや合成観察を行った。
本研究は, ある組織からの限られた予測器セットに依存するため, より正確なMLモデルでは, 有害な影響が抑制される可能性がある。
関連論文リスト
- Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - Impact of Missing Values in Machine Learning: A Comprehensive Analysis [0.0]
本稿では,機械学習(ML)モデルにおける欠落値の影響について検討する。
分析では、バイアス付き推論、予測能力の低下、計算負荷の増大など、欠落した値による課題に焦点を当てた。
この研究は、欠落した値に対処する実践的な意味を説明するためにケーススタディと実例を用いている。
論文 参考訳(メタデータ) (2024-10-10T18:31:44Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Statistical inference for individual fairness [24.622418924551315]
機械学習モデルにおける個々人の公平性の違反を検出する問題に注目する。
我々は,対向コスト関数のための一連の推論ツールを開発した。
実世界のケーススタディでツールの有用性を実証します。
論文 参考訳(メタデータ) (2021-03-30T22:49:25Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Data and Model Dependencies of Membership Inference Attack [13.951470844348899]
我々は、データとMLモデル特性の両方がMIAに対するML手法の脆弱性に与える影響を実証分析する。
この結果から,MIAの精度とデータセットの特性と使用中のトレーニングモデルとの関係が明らかになった。
我々は,これらのデータとモデル特性をレギュレータとして利用し,MLモデルをMIAに対して保護することを提案する。
論文 参考訳(メタデータ) (2020-02-17T09:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。