論文の概要: Transitioning from Real to Synthetic data: Quantifying the bias in model
- arxiv url: http://arxiv.org/abs/2105.04144v1
- Date: Mon, 10 May 2021 06:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:44:43.131031
- Title: Transitioning from Real to Synthetic data: Quantifying the bias in model
- Title(参考訳): 実データから合成データへの遷移:モデルのバイアスの定量化
- Authors: Aman Gupta, Deepak Bhatt and Anubha Pandey
- Abstract要約: 本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
- 参考スコア(独自算出の注目度): 1.6134566438137665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of generative modeling techniques, synthetic data and its use
has penetrated across various domains from unstructured data such as image,
text to structured dataset modeling healthcare outcome, risk decisioning in
financial domain, and many more. It overcomes various challenges such as
limited training data, class imbalance, restricted access to dataset owing to
privacy issues. To ensure the trained model used for automated decisioning
purposes makes a fair decision there exist prior work to quantify and mitigate
those issues. This study aims to establish a trade-off between bias and
fairness in the models trained using synthetic data. Variants of synthetic data
generation techniques were studied to understand bias amplification including
differentially private generation schemes. Through experiments on a tabular
dataset, we demonstrate there exist a varying levels of bias impact on models
trained using synthetic data. Techniques generating less correlated feature
performs well as evident through fairness metrics with 94\%, 82\%, and 88\%
relative drop in DPD (demographic parity difference), EoD (equality of odds)
and EoP (equality of opportunity) respectively, and 24\% relative improvement
in DRP (demographic parity ratio) with respect to the real dataset. We believe
the outcome of our research study will help data science practitioners
understand the bias in the use of synthetic data.
- Abstract(参考訳): 生成的モデリング技術の出現とともに、合成データとその使用は、画像、テキストから構造化データセットモデリング医療結果、金融ドメインにおけるリスク決定など、さまざまな領域に浸透してきた。
トレーニングデータ制限、クラス不均衡、プライバシー問題によるデータセットへのアクセス制限など、さまざまな課題を克服する。
自動意思決定の目的で使用されるトレーニングされたモデルを確実にするために、これらの問題を定量化し緩和するための事前作業が存在する。
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
差分プライベートな生成手法を含むバイアス増幅を理解するために, 合成データ生成技術の多様性を検討した。
表付きデータセットの実験を通して、合成データを用いて訓練されたモデルに様々なレベルのバイアスの影響があることを実証する。
相関性の低い特徴を生成する手法は,dpdの94\%,82\%,88\%,eod(equality of odds),eop(equality of opportunity),drp(demographic parity ratio)の相対的低下率,実データセットに対する24\%の相対的改善,といった公平度指標によっても明らかである。
我々の研究結果は、データサイエンスの実践者が合成データの使用のバイアスを理解するのに役立つと信じています。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Analyzing Effects of Fake Training Data on the Performance of Deep
Learning Systems [0.0]
ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に悩まされることが多い。
GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。
本研究では, 各種合成データと原データとを混合した場合, アウト・オブ・ディストリビューションデータに対するモデルの堅牢性と, 予測の一般品質に影響を及ぼす影響を解析する。
論文 参考訳(メタデータ) (2023-03-02T13:53:22Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。