論文の概要: An Exploration of How Training Set Composition Bias in Machine Learning
Affects Identifying Rare Objects
- arxiv url: http://arxiv.org/abs/2207.03207v1
- Date: Thu, 7 Jul 2022 10:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:57:20.084237
- Title: An Exploration of How Training Set Composition Bias in Machine Learning
Affects Identifying Rare Objects
- Title(参考訳): 機械学習における集合構成バイアスの学習が希少物体の同定に及ぼす影響
- Authors: Sean E. Lake and Chao-Wei Tsai
- Abstract要約: まれなクラスの例を誇張して無視されないようにするのが一般的である。
また、ソースタイプのバランスがほぼ等しくなるような制限されたデータでトレーニングする練習も頻繁に行われます。
ここでは、これらのプラクティスが、過剰な割り当てソースからレアクラスのモデルに偏りがあることを示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: When training a machine learning classifier on data where one of the classes
is intrinsically rare, the classifier will often assign too few sources to the
rare class. To address this, it is common to up-weight the examples of the rare
class to ensure it isn't ignored. It is also a frequent practice to train on
restricted data where the balance of source types is closer to equal for the
same reason. Here we show that these practices can bias the model toward
over-assigning sources to the rare class. We also explore how to detect when
training data bias has had a statistically significant impact on the trained
model's predictions, and how to reduce the bias's impact. While the magnitude
of the impact of the techniques developed here will vary with the details of
the application, for most cases it should be modest. They are, however,
universally applicable to every time a machine learning classification model is
used, making them analogous to Bessel's correction to the sample variance.
- Abstract(参考訳): 1つのクラスが本質的にまれなデータで機械学習の分類器をトレーニングする場合、分類器はまれなクラスにあまりに少ないソースを割り当てる。
これに対処するには、レアクラスの例を強調して無視しないようにするのが一般的です。
また、ソースタイプのバランスが同じ理由でほぼ等しくなるような制限されたデータでトレーニングするプラクティスも頻繁に行われます。
ここでは,これらのプラクティスが,レアクラスへの過剰割り当てソースに対してモデルにバイアスを与える可能性があることを示す。
また,データバイアスのトレーニングがトレーニングモデルの予測に統計的に有意な影響を及ぼした場合の検出方法や,バイアスの影響を低減する方法について検討した。
ここで開発されたテクニックの影響の大きさは、アプリケーションの詳細によって異なるが、ほとんどの場合、控えめであるべきである。
しかし、それらは機械学習の分類モデルが使われるたびに普遍的に適用され、標本のばらつきに対するベッセルの補正と類似している。
関連論文リスト
- Model Debiasing by Learnable Data Augmentation [19.625915578646758]
本稿では,トレーニングを正規化可能なデータ拡張戦略を備えた,新しい2段階学習パイプラインを提案する。
合成および現実的なバイアス付きデータセットの実験は、最先端の分類精度を示し、競合する手法より優れている。
論文 参考訳(メタデータ) (2024-08-09T09:19:59Z) - SelecMix: Debiased Learning by Contradicting-pair Sampling [39.613595678105845]
ERMでトレーニングされたニューラルネットワークは、トレーニングデータがバイアスを受けたときに意図しない決定ルールを学ぶ。
トレーニング例の凸結合を生成するために,Mixupをベースとした代替案を提案する。
SelecMixと呼ばれるこの手法は、(i)同一のラベルを示すが、(ii)異なるラベルを示すか、または(ii)類似のバイアスを持つ特徴を示すものとして定義される、矛盾する例のペアにミックスアップを適用する。
論文 参考訳(メタデータ) (2022-11-04T07:15:36Z) - Prisoners of Their Own Devices: How Models Induce Data Bias in
Performative Prediction [4.874780144224057]
偏見のあるモデルは、社会の特定のグループに不均等に害を与える決定を下すことができる。
多くの作業は静的ML環境での不公平さを測定することに費やされているが、動的でパフォーマンスのよい予測は行っていない。
本稿では,データのバイアスを特徴付ける分類法を提案する。
論文 参考訳(メタデータ) (2022-06-27T10:56:04Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Right for the Right Latent Factors: Debiasing Generative Models via
Disentanglement [20.41752850243945]
統計機械学習手法の主要な前提は、テスト時に遭遇したデータの分布から独立したサンプルにアクセスすることである。
特に、機械学習モデルは、Clever-Hansのような振る舞いを示すことが示されている。
本稿では,人的フィードバックによって達成される内部表現を解消し,生成モデルをデバイアス化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-01T13:16:18Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。