論文の概要: From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent
Bias
- arxiv url: http://arxiv.org/abs/2308.04553v2
- Date: Fri, 29 Sep 2023 05:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 17:45:41.909240
- Title: From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent
Bias
- Title(参考訳): フェイクからリアルへ:バランスのとれた合成画像の事前学習からバイアス予防へ
- Authors: Maan Qraitem, Kate Saenko, Bryan A. Plummer
- Abstract要約: 我々はFrom Fake to Real(FFR)と呼ぶ2段階のトレーニングパイプラインを提案する。
FFRはバランスの取れた合成データのモデルを事前訓練し、サブグループ間の堅牢な表現を学習する。
第2のステップでは、FFRはEMMまたは共通の損失に基づくバイアス緩和法を用いて、実データ上でモデルを微調整する。
- 参考スコア(独自算出の注目度): 72.59373734471333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual recognition models are prone to learning spurious correlations induced
by a biased training set where certain conditions $B$ (\eg, Indoors) are
over-represented in certain classes $Y$ (\eg, Big Dogs). Synthetic data from
generative models offers a promising direction to mitigate this issue by
augmenting underrepresented conditions in the real dataset. However, this
introduces another potential source of bias from generative model artifacts in
the synthetic data. Indeed, as we will show, prior work uses synthetic data to
resolve the model's bias toward $B$, but it doesn't correct the models' bias
toward the pair $(B, G)$ where $G$ denotes whether the sample is real or
synthetic. Thus, the model could simply learn signals based on the pair $(B,
G)$ (\eg, Synthetic Indoors) to make predictions about $Y$ (\eg, Big Dogs). To
address this issue, we propose a two-step training pipeline that we call From
Fake to Real (FFR). The first step of FFR pre-trains a model on balanced
synthetic data to learn robust representations across subgroups. In the second
step, FFR fine-tunes the model on real data using ERM or common loss-based bias
mitigation methods. By training on real and synthetic data separately, FFR
avoids the issue of bias toward signals from the pair $(B, G)$. In other words,
synthetic data in the first step provides effective unbiased representations
that boosts performance in the second step. Indeed, our analysis of high bias
setting (99.9\%) shows that FFR improves performance over the state-of-the-art
by 7-14\% over three datasets (CelebA, UTK-Face, and SpuCO Animals).
- Abstract(参考訳): 視覚認識モデルは、ある条件のB$ (\eg, Indoors) が特定のクラスで過剰に表現されるバイアス付きトレーニングセットによって引き起こされる刺激的な相関を学習する傾向がある。
生成モデルからの合成データは、実際のデータセットで表現されていない条件を増大させることでこの問題を緩和する有望な方向を提供する。
しかし、これは合成データの生成モデルアーティファクトからの別の潜在的なバイアス源をもたらす。
実際、以前の研究では合成データを使ってB$に対するモデルのバイアスを解決するが、サンプルが本物か合成的であるかを示す$(B, G)$に対してモデルのバイアスを補正しない。
したがって、モデルは、ペア$(B, G)$ (\eg, Synthetic Indoors) に基づいて信号を学び、約$Y$ (\eg, Big Dogs) の予測を行うことができる。
この問題に対処するため,From Fake to Real (FFR)と呼ばれる2段階のトレーニングパイプラインを提案する。
ffrの最初のステップは、バランスのとれた合成データに基づくモデルを事前学習し、サブグループ間のロバスト表現を学ぶ。
第2のステップでは、FFRはEMMまたは共通の損失に基づくバイアス緩和法を用いて、実データ上でモデルを微調整する。
実データと合成データを別々にトレーニングすることで、FFRはペアの$(B, G)$からの信号に対するバイアスの問題を避けることができる。
言い換えれば、第1ステップの合成データは、第2ステップのパフォーマンスを高める効果的な非バイアス表現を提供する。
実際、高いバイアス設定(99.9\%)の分析は、FFRが3つのデータセット(CelebA、UTK-Face、SpuCO Animals)よりも7-14\%向上していることを示している。
関連論文リスト
- Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - BiasEnsemble: Revisiting the Importance of Amplifying Bias for Debiasing [31.665352191081357]
Debiasing”は、データセットバイアスの影響を受けにくいように分類器をトレーニングすることを目的としている。
$f_B$はバイアス整合サンプルにフォーカスするよう訓練され、$f_D$は主にバイアス整合サンプルでトレーニングされる。
本稿では,バイアス分散サンプルを除去する新しいバイアス付きサンプル選択法であるBiasEnsembleを提案する。
論文 参考訳(メタデータ) (2022-05-29T07:55:06Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - TabFairGAN: Fair Tabular Data Generation with Generative Adversarial
Networks [0.0]
本稿では,表データ生成のためのジェネレーティブ・アドバイザリアル・ネットワークを提案する。
我々は、制約のない、制約のない公正なデータ生成の両方のケースで結果をテストする。
我々のモデルは、1つの批評家のみを用いることで、また元のGANモデルの大きな問題を避けることで、より安定している。
論文 参考訳(メタデータ) (2021-09-02T01:48:01Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。