論文の概要: Systematic Bias in Sample Inference and its Effect on Machine Learning
- arxiv url: http://arxiv.org/abs/2307.01384v1
- Date: Mon, 3 Jul 2023 22:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 18:58:34.668180
- Title: Systematic Bias in Sample Inference and its Effect on Machine Learning
- Title(参考訳): サンプル推論における系統的バイアスと機械学習への影響
- Authors: Owen O'Neill and Fintan Costello
- Abstract要約: 機械学習モデルでよく見られるパターンは、ターゲット特徴の過小評価である。
この過小評価は通常、少数民族にとってより大きい。
小サンプルに対するそのような推測は、体系的および指向性統計バイアスの対象であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A commonly observed pattern in machine learning models is an underprediction
of the target feature, with the model's predicted target rate for members of a
given category typically being lower than the actual target rate for members of
that category in the training set. This underprediction is usually larger for
members of minority groups; while income level is underpredicted for both men
and women in the 'adult' dataset, for example, the degree of underprediction is
significantly higher for women (a minority in that dataset). We propose that
this pattern of underprediction for minorities arises as a predictable
consequence of statistical inference on small samples. When presented with a
new individual for classification, an ML model performs inference not on the
entire training set, but on a subset that is in some way similar to the new
individual, with sizes of these subsets typically following a power law
distribution so that most are small (and with these subsets being necessarily
smaller for the minority group). We show that such inference on small samples
is subject to systematic and directional statistical bias, and that this bias
produces the observed patterns of underprediction seen in ML models. Analysing
a standard sklearn decision tree model's predictions on a set of over 70
subsets of the 'adult' and COMPAS datasets, we found that a bias prediction
measure based on small-sample inference had a significant positive correlations
(0.56 and 0.85) with the observed underprediction rate for these subsets.
- Abstract(参考訳): 機械学習モデルで一般的に見られるパターンは、ターゲット特徴の過小評価であり、モデルが予測する特定のカテゴリのメンバーのターゲットレートは、トレーニングセットにおけるそのカテゴリのメンバーの実際のターゲットレートよりも低い。
マイノリティグループでは、この下降率は通常より大きいが、"adult"データセットでは、男性と女性の両方で所得水準が下降するが、例えば、下降率の程度は女性(このデータセットでは少数)では著しく高い。
マイノリティに対するこの過小評価パターンは,小サンプルに対する統計的推測の予測可能な結果として生じると考えられる。
分類のための新しい個人を提示すると、mlモデルはトレーニングセット全体ではなく、何らかの方法で新しい個人に類似したサブセット上で推論を実行します。
このような小さなサンプルの推論は系統的・方向性的な統計バイアスの対象であり、このバイアスがmlモデルに見られる予測不足のパターンを生じさせることを示した。
標準スクラン決定木モデルの予測を'adult'とCompASデータセットの70以上のサブセットで分析した結果,小サンプル推定に基づく偏差予測は,これらのサブセットの予測下降率と有意な正の相関(0.56, 0.85)を示した。
関連論文リスト
- Less can be more: representational vs. stereotypical gender bias in facial expression recognition [3.9698529891342207]
機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。
本稿では、データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。
ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。
論文 参考訳(メタデータ) (2024-06-25T09:26:49Z) - Oversampling Higher-Performing Minorities During Machine Learning Model
Training Reduces Adverse Impact Slightly but Also Reduces Model Accuracy [18.849426971487077]
トレーニングデータにおける有害影響率を操作するために,少数者(黒人およびヒスパニック系)を体系的に過小評価し,過大評価した。
その結果,トレーニングデータによる影響は,MLモデルの悪影響と線形に関連していることがわかった。
本研究は, 自己申告書と面接書にまたがる一貫した効果を観察し, 実測, 合成観察をオーバーサンプリングした。
論文 参考訳(メタデータ) (2023-04-27T02:53:29Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。