論文の概要: Active Data Sampling and Generation for Bias Remediation
- arxiv url: http://arxiv.org/abs/2503.20414v1
- Date: Wed, 26 Mar 2025 10:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:11.988185
- Title: Active Data Sampling and Generation for Bias Remediation
- Title(参考訳): バイオマス修復のためのアクティブデータサンプリングと生成
- Authors: Antonio Maratea, Rita Perna,
- Abstract要約: トレーニング済みのクラスを微調整する際、不公平な分類を補うために、サンプリングとデータ生成の混合戦略が提案されている。
視覚的セマンティック・ロール・ラベリングのためのDeep Modelsのケーススタディとして、提案手法は90/10の不均衡から始まるシミュレートされたジェンダーバイアスを完全に解決することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Adequate sampling space coverage is the keystone to effectively train trustworthy Machine Learning models. Unfortunately, real data do carry several inherent risks due to the many potential biases they exhibit when gathered without a proper random sampling over the reference population, and most of the times this is way too expensive or time consuming to be a viable option. Depending on how training data have been gathered, unmitigated biases can lead to harmful or discriminatory consequences that ultimately hinders large scale applicability of pre-trained models and undermine their truthfulness or fairness expectations. In this paper, a mixed active sampling and data generation strategy -- called samplation -- is proposed as a mean to compensate during fine-tuning of a pre-trained classifer the unfair classifications it produces, assuming that the training data come from a non-probabilistic sampling schema. Given a pre-trained classifier, first a fairness metric is evaluated on a test set, then new reservoirs of labeled data are generated and finally a number of reversely-biased artificial samples are generated for the fine-tuning of the model. Using as case study Deep Models for visual semantic role labeling, the proposed method has been able to fully cure a simulated gender bias starting from a 90/10 imbalance, with only a small percentage of new data and with a minor effect on accuracy.
- Abstract(参考訳): 適切なサンプリングスペースカバレッジが、信頼できる機械学習モデルを効果的にトレーニングするための鍵となる。
残念なことに、実際のデータには、基準人口に対して適切なランダムサンプリングを行わずに収集された場合の潜在的なバイアスによって、いくつかの固有のリスクが伴う。
トレーニングデータがどのように収集されたかによって、未成熟のバイアスは有害または差別的な結果をもたらす可能性がある。
本稿では,非確率的サンプリングスキーマから得られたトレーニングデータを前提として,事前学習したクラス分類を微調整する際の補償手段として,サンプリングとデータ生成の混在が提案される。
事前訓練された分類器が与えられた後、まずテストセット上で公正度評価を行い、ラベル付きデータの新しい貯留層を生成し、最終的にモデルの微調整のために複数の逆バイアスされた人工サンプルを生成する。
視覚的セマンティック・ロール・ラベリングのためのDeep Modelsのケーススタディとして、提案手法は、90/10の不均衡から始まり、新しいデータのごくわずかのパーセンテージと精度へのわずかな影響で、シミュレーションされたジェンダーバイアスを完全に解決することができる。
関連論文リスト
- Challenges learning from imbalanced data using tree-based models: Prevalence estimates systematically depend on hyperparameters and can be upwardly biased [0.0]
不均衡二項分類問題は、多くの研究分野において発生する。
モデルのトレーニングのための(より)バランスのとれたデータセットを作成するために、多数派のクラスをサブサンプルするのが一般的です。
これは、モデルが新しいデータと同じデータ生成プロセスに従わないデータセットから学習するため、モデルの予測をバイアスする。
論文 参考訳(メタデータ) (2024-12-17T19:38:29Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Twice Class Bias Correction for Imbalanced Semi-Supervised Learning [59.90429949214134]
textbfTwice textbfClass textbfBias textbfCorrection (textbfTCBC) と呼ばれる新しいアプローチを導入する。
トレーニング過程におけるモデルパラメータのクラスバイアスを推定する。
非ラベル標本に対してモデルの擬似ラベルに二次補正を適用する。
論文 参考訳(メタデータ) (2023-12-27T15:06:36Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Provable Detection of Propagating Sampling Bias in Prediction Models [1.7709344190822935]
本稿では,データバイアスの特定の形式である差分サンプリングバイアスが,データステージから予測ステージにどのように伝播するかを理論的に分析する。
妥当な仮定の下では、モデル予測におけるバイアスの量が、データの差分サンプリングバイアスの量の関数としてどのように変化するかを定量化する。
仮定が緩和された場合でも理論的な結果が実際に成り立つことを実証する。
論文 参考訳(メタデータ) (2023-02-13T23:39:35Z) - Open-Sampling: Exploring Out-of-Distribution data for Re-balancing
Long-tailed datasets [24.551465814633325]
深層ニューラルネットワークは通常、トレーニングデータセットが極端なクラス不均衡に苦しむ場合、パフォーマンスが良くない。
近年の研究では、半教師付き方式でアウト・オブ・ディストリビューションデータによる直接トレーニングが一般化性能を損なうことが報告されている。
そこで我々は,オープンセットノイズラベルを用いて学習データセットのクラス前のバランスを再調整する,オープンサンプリングと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-17T14:29:52Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。