論文の概要: From Fake to Real (FFR): A two-stage training pipeline for mitigating
spurious correlations with synthetic data
- arxiv url: http://arxiv.org/abs/2308.04553v1
- Date: Tue, 8 Aug 2023 19:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 16:12:46.826708
- Title: From Fake to Real (FFR): A two-stage training pipeline for mitigating
spurious correlations with synthetic data
- Title(参考訳): FakeからReal(FFR)へ:合成データによる素早い相関を緩和するための2段階トレーニングパイプライン
- Authors: Maan Qraitem, Kate Saenko, Bryan A. Plummer
- Abstract要約: 視覚認識モデルは、不均衡なトレーニングセットによって引き起こされる刺激的な相関を学習する傾向がある。
生成モデルは、少数サンプルの合成データを生成することによって、このバイアスを緩和する有望な方向を提供する。
そこで本研究では,1)バランスのとれた合成データセット上でモデルを事前訓練し,2)実際のデータに対して微調整を行うことにより,この問題を軽減するための新たな2段階パイプラインを提案する。
- 参考スコア(独自算出の注目度): 57.17709477668213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual recognition models are prone to learning spurious correlations induced
by an imbalanced training set where certain groups (\eg Females) are
under-represented in certain classes (\eg Programmers). Generative models offer
a promising direction in mitigating this bias by generating synthetic data for
the minority samples and thus balancing the training set. However, prior work
that uses these approaches overlooks that visual recognition models could often
learn to differentiate between real and synthetic images and thus fail to
unlearn the bias in the original dataset. In our work, we propose a novel
two-stage pipeline to mitigate this issue where 1) we pre-train a model on a
balanced synthetic dataset and then 2) fine-tune on the real data. Using this
pipeline, we avoid training on both real and synthetic data, thus avoiding the
bias between real and synthetic data. Moreover, we learn robust features
against the bias in the first step that mitigate the bias in the second step.
Moreover, our pipeline naturally integrates with bias mitigation methods; they
can be simply applied to the fine-tuning step. As our experiments prove, our
pipeline can further improve the performance of bias mitigation methods
obtaining state-of-the-art performance on three large-scale datasets.
- Abstract(参考訳): 視覚認識モデルは、特定のグループ(女性)が特定のクラス(プログラマ)で不足している不均衡なトレーニングセットによって引き起こされる急激な相関を学習する傾向にある。
生成モデルは、マイノリティサンプルの合成データを生成し、トレーニングセットのバランスをとることで、このバイアスを緩和する有望な方向を提供する。
しかし、これらのアプローチを用いた以前の研究は、視覚認識モデルが実画像と合成画像の区別を学べることがしばしばあり、したがって元のデータセットのバイアスを解き放つことに失敗する可能性があることを見落としていた。
本稿では,この問題を緩和する新たな2段階パイプラインを提案する。
1)バランスの取れた合成データセット上でモデルを事前訓練した後
2)実際のデータを微調整する。
このパイプラインを使用することで,実データと合成データの両方のトレーニングを回避し,実データと合成データのバイアスを回避する。
さらに,第1ステップではバイアスに対して頑健な特徴を学習し,第2ステップではバイアスを緩和する。
さらに、当社のパイプラインはバイアス緩和手法と自然に統合され、微調整ステップに単純に適用することができます。
実験により,3つの大規模データセット上での最先端性能を得るバイアス軽減手法の性能をさらに向上させることができた。
関連論文リスト
- Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - BiasEnsemble: Revisiting the Importance of Amplifying Bias for Debiasing [31.665352191081357]
Debiasing”は、データセットバイアスの影響を受けにくいように分類器をトレーニングすることを目的としている。
$f_B$はバイアス整合サンプルにフォーカスするよう訓練され、$f_D$は主にバイアス整合サンプルでトレーニングされる。
本稿では,バイアス分散サンプルを除去する新しいバイアス付きサンプル選択法であるBiasEnsembleを提案する。
論文 参考訳(メタデータ) (2022-05-29T07:55:06Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - TabFairGAN: Fair Tabular Data Generation with Generative Adversarial
Networks [0.0]
本稿では,表データ生成のためのジェネレーティブ・アドバイザリアル・ネットワークを提案する。
我々は、制約のない、制約のない公正なデータ生成の両方のケースで結果をテストする。
我々のモデルは、1つの批評家のみを用いることで、また元のGANモデルの大きな問題を避けることで、より安定している。
論文 参考訳(メタデータ) (2021-09-02T01:48:01Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。