論文の概要: From Fake to Real (FFR): A two-stage training pipeline for mitigating
spurious correlations with synthetic data
- arxiv url: http://arxiv.org/abs/2308.04553v1
- Date: Tue, 8 Aug 2023 19:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 16:12:46.826708
- Title: From Fake to Real (FFR): A two-stage training pipeline for mitigating
spurious correlations with synthetic data
- Title(参考訳): FakeからReal(FFR)へ:合成データによる素早い相関を緩和するための2段階トレーニングパイプライン
- Authors: Maan Qraitem, Kate Saenko, Bryan A. Plummer
- Abstract要約: 視覚認識モデルは、不均衡なトレーニングセットによって引き起こされる刺激的な相関を学習する傾向がある。
生成モデルは、少数サンプルの合成データを生成することによって、このバイアスを緩和する有望な方向を提供する。
そこで本研究では,1)バランスのとれた合成データセット上でモデルを事前訓練し,2)実際のデータに対して微調整を行うことにより,この問題を軽減するための新たな2段階パイプラインを提案する。
- 参考スコア(独自算出の注目度): 57.17709477668213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual recognition models are prone to learning spurious correlations induced
by an imbalanced training set where certain groups (\eg Females) are
under-represented in certain classes (\eg Programmers). Generative models offer
a promising direction in mitigating this bias by generating synthetic data for
the minority samples and thus balancing the training set. However, prior work
that uses these approaches overlooks that visual recognition models could often
learn to differentiate between real and synthetic images and thus fail to
unlearn the bias in the original dataset. In our work, we propose a novel
two-stage pipeline to mitigate this issue where 1) we pre-train a model on a
balanced synthetic dataset and then 2) fine-tune on the real data. Using this
pipeline, we avoid training on both real and synthetic data, thus avoiding the
bias between real and synthetic data. Moreover, we learn robust features
against the bias in the first step that mitigate the bias in the second step.
Moreover, our pipeline naturally integrates with bias mitigation methods; they
can be simply applied to the fine-tuning step. As our experiments prove, our
pipeline can further improve the performance of bias mitigation methods
obtaining state-of-the-art performance on three large-scale datasets.
- Abstract(参考訳): 視覚認識モデルは、特定のグループ(女性)が特定のクラス(プログラマ)で不足している不均衡なトレーニングセットによって引き起こされる急激な相関を学習する傾向にある。
生成モデルは、マイノリティサンプルの合成データを生成し、トレーニングセットのバランスをとることで、このバイアスを緩和する有望な方向を提供する。
しかし、これらのアプローチを用いた以前の研究は、視覚認識モデルが実画像と合成画像の区別を学べることがしばしばあり、したがって元のデータセットのバイアスを解き放つことに失敗する可能性があることを見落としていた。
本稿では,この問題を緩和する新たな2段階パイプラインを提案する。
1)バランスの取れた合成データセット上でモデルを事前訓練した後
2)実際のデータを微調整する。
このパイプラインを使用することで,実データと合成データの両方のトレーニングを回避し,実データと合成データのバイアスを回避する。
さらに,第1ステップではバイアスに対して頑健な特徴を学習し,第2ステップではバイアスを緩和する。
さらに、当社のパイプラインはバイアス緩和手法と自然に統合され、微調整ステップに単純に適用することができます。
実験により,3つの大規模データセット上での最先端性能を得るバイアス軽減手法の性能をさらに向上させることができた。
関連論文リスト
- Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルがWebスケールデータセット上で事前訓練されている場合、崩壊と崩壊の回避について検討する。
意外なことに、実データと合成データの非自明な相互作用は、テスト損失を減らすための合成データの値は、実データの絶対量に依存する。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - BiasEnsemble: Revisiting the Importance of Amplifying Bias for Debiasing [31.665352191081357]
Debiasing”は、データセットバイアスの影響を受けにくいように分類器をトレーニングすることを目的としている。
$f_B$はバイアス整合サンプルにフォーカスするよう訓練され、$f_D$は主にバイアス整合サンプルでトレーニングされる。
本稿では,バイアス分散サンプルを除去する新しいバイアス付きサンプル選択法であるBiasEnsembleを提案する。
論文 参考訳(メタデータ) (2022-05-29T07:55:06Z) - UnrealPerson: An Adaptive Pipeline towards Costless Person
Re-identification [102.58619642363959]
本稿では,unrealpersonという,非現実的な画像データをフル活用して,トレーニングとデプロイメントの両面でコストを削減する新しいパイプラインを提案する。
3,000のIDと12万のインスタンスで、MSMT17に直接転送されると38.5%のランク-1の精度が得られる。
論文 参考訳(メタデータ) (2020-12-08T08:15:30Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。