論文の概要: From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent
Bias
- arxiv url: http://arxiv.org/abs/2308.04553v2
- Date: Fri, 29 Sep 2023 05:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 17:45:41.909240
- Title: From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent
Bias
- Title(参考訳): フェイクからリアルへ:バランスのとれた合成画像の事前学習からバイアス予防へ
- Authors: Maan Qraitem, Kate Saenko, Bryan A. Plummer
- Abstract要約: 我々はFrom Fake to Real(FFR)と呼ぶ2段階のトレーニングパイプラインを提案する。
FFRはバランスの取れた合成データのモデルを事前訓練し、サブグループ間の堅牢な表現を学習する。
第2のステップでは、FFRはEMMまたは共通の損失に基づくバイアス緩和法を用いて、実データ上でモデルを微調整する。
- 参考スコア(独自算出の注目度): 72.59373734471333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual recognition models are prone to learning spurious correlations induced
by a biased training set where certain conditions $B$ (\eg, Indoors) are
over-represented in certain classes $Y$ (\eg, Big Dogs). Synthetic data from
generative models offers a promising direction to mitigate this issue by
augmenting underrepresented conditions in the real dataset. However, this
introduces another potential source of bias from generative model artifacts in
the synthetic data. Indeed, as we will show, prior work uses synthetic data to
resolve the model's bias toward $B$, but it doesn't correct the models' bias
toward the pair $(B, G)$ where $G$ denotes whether the sample is real or
synthetic. Thus, the model could simply learn signals based on the pair $(B,
G)$ (\eg, Synthetic Indoors) to make predictions about $Y$ (\eg, Big Dogs). To
address this issue, we propose a two-step training pipeline that we call From
Fake to Real (FFR). The first step of FFR pre-trains a model on balanced
synthetic data to learn robust representations across subgroups. In the second
step, FFR fine-tunes the model on real data using ERM or common loss-based bias
mitigation methods. By training on real and synthetic data separately, FFR
avoids the issue of bias toward signals from the pair $(B, G)$. In other words,
synthetic data in the first step provides effective unbiased representations
that boosts performance in the second step. Indeed, our analysis of high bias
setting (99.9\%) shows that FFR improves performance over the state-of-the-art
by 7-14\% over three datasets (CelebA, UTK-Face, and SpuCO Animals).
- Abstract(参考訳): 視覚認識モデルは、ある条件のB$ (\eg, Indoors) が特定のクラスで過剰に表現されるバイアス付きトレーニングセットによって引き起こされる刺激的な相関を学習する傾向がある。
生成モデルからの合成データは、実際のデータセットで表現されていない条件を増大させることでこの問題を緩和する有望な方向を提供する。
しかし、これは合成データの生成モデルアーティファクトからの別の潜在的なバイアス源をもたらす。
実際、以前の研究では合成データを使ってB$に対するモデルのバイアスを解決するが、サンプルが本物か合成的であるかを示す$(B, G)$に対してモデルのバイアスを補正しない。
したがって、モデルは、ペア$(B, G)$ (\eg, Synthetic Indoors) に基づいて信号を学び、約$Y$ (\eg, Big Dogs) の予測を行うことができる。
この問題に対処するため,From Fake to Real (FFR)と呼ばれる2段階のトレーニングパイプラインを提案する。
ffrの最初のステップは、バランスのとれた合成データに基づくモデルを事前学習し、サブグループ間のロバスト表現を学ぶ。
第2のステップでは、FFRはEMMまたは共通の損失に基づくバイアス緩和法を用いて、実データ上でモデルを微調整する。
実データと合成データを別々にトレーニングすることで、FFRはペアの$(B, G)$からの信号に対するバイアスの問題を避けることができる。
言い換えれば、第1ステップの合成データは、第2ステップのパフォーマンスを高める効果的な非バイアス表現を提供する。
実際、高いバイアス設定(99.9\%)の分析は、FFRが3つのデータセット(CelebA、UTK-Face、SpuCO Animals)よりも7-14\%向上していることを示している。
関連論文リスト
- Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルがWebスケールデータセット上で事前訓練されている場合、崩壊と崩壊の回避について検討する。
意外なことに、実データと合成データの非自明な相互作用は、テスト損失を減らすための合成データの値は、実データの絶対量に依存する。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - BiasEnsemble: Revisiting the Importance of Amplifying Bias for Debiasing [31.665352191081357]
Debiasing”は、データセットバイアスの影響を受けにくいように分類器をトレーニングすることを目的としている。
$f_B$はバイアス整合サンプルにフォーカスするよう訓練され、$f_D$は主にバイアス整合サンプルでトレーニングされる。
本稿では,バイアス分散サンプルを除去する新しいバイアス付きサンプル選択法であるBiasEnsembleを提案する。
論文 参考訳(メタデータ) (2022-05-29T07:55:06Z) - UnrealPerson: An Adaptive Pipeline towards Costless Person
Re-identification [102.58619642363959]
本稿では,unrealpersonという,非現実的な画像データをフル活用して,トレーニングとデプロイメントの両面でコストを削減する新しいパイプラインを提案する。
3,000のIDと12万のインスタンスで、MSMT17に直接転送されると38.5%のランク-1の精度が得られる。
論文 参考訳(メタデータ) (2020-12-08T08:15:30Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。