論文の概要: Evaluating the Fairness Impact of Differentially Private Synthetic Data
- arxiv url: http://arxiv.org/abs/2205.04321v1
- Date: Mon, 9 May 2022 14:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 16:13:34.597161
- Title: Evaluating the Fairness Impact of Differentially Private Synthetic Data
- Title(参考訳): 微分プライベート合成データの公平性への影響評価
- Authors: Blake Bullwinkel, Kristen Grabarz, Lily Ke, Scarlett Gong, Chris
Tanner, Joshua Allen
- Abstract要約: 差分プライベート(DP)合成データは、機密情報を含むデータの有効性を最大化するための有望なアプローチである。
これらのモデルのうち3つのモデルが下流のバイナリ分類タスクにおいてフェアネスの結果を劣化させる場合が多いことを示す実験結果を示す。
マルチラベルアンダーサンプ法を用いて事前処理したデータに対する学習用シンセサイザーは、精度を低下させることなく、より公正な結果を促進することができる。
- 参考スコア(独自算出の注目度): 0.9297355862757838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentially private (DP) synthetic data is a promising approach to
maximizing the utility of data containing sensitive information. Due to the
suppression of underrepresented classes that is often required to achieve
privacy, however, it may be in conflict with fairness. We evaluate four DP
synthesizers and present empirical results indicating that three of these
models frequently degrade fairness outcomes on downstream binary classification
tasks. We draw a connection between fairness and the proportion of minority
groups present in the generated synthetic data, and find that training
synthesizers on data that are pre-processed via a multi-label undersampling
method can promote more fair outcomes without degrading accuracy.
- Abstract(参考訳): 微分プライベート(DP)合成データは、機密情報を含むデータの有効性を最大化するための有望なアプローチである。
しかし、プライバシーを実現するためにしばしば要求される過小表現されたクラスを抑圧するため、公平さと相反する可能性がある。
4つのDPシンセサイザーを評価し、これらのモデルのうち3つのモデルが下流のバイナリ分類タスクにおいてフェアネスの結果を劣化させることを実証した。
生成した合成データに含まれる少数集団の割合と公正さを関連付け,マルチラベルアンダーサンプリング法を用いて事前処理したデータに対する学習合成器は,精度を低下させることなく,より公平な結果を促進することができる。
関連論文リスト
- The Impact of Balancing Real and Synthetic Data on Accuracy and Fairness in Face Recognition [10.849598219674132]
人口統計学的にバランスのとれた認証データと合成データとが、顔認識モデルの精度と公正性に与える影響について検討した。
本研究は,<i>I</i> と<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>E</i>,<i>,</i>,<i>,<i>,<i>I</i>,</i>,<i>,<i>,<i>,<i>,
論文 参考訳(メタデータ) (2024-09-04T16:50:48Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Strong statistical parity through fair synthetic data [0.0]
本稿では,デザインによる公正さを具現化した合成データの作成について検討する。
このような合成データに基づいてトレーニングされた下流モデルは、すべての閾値にわたって公正な予測を提供する。
論文 参考訳(メタデータ) (2023-11-06T10:06:30Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data [0.0]
aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重するデータ共有を可能にするという約束がますます認識されている。
我々は,合成データソリューションの信頼性とプライバシリスクを定量化するための,ホールドアウトに基づく実証的評価フレームワークを紹介し,実証する。
論文 参考訳(メタデータ) (2021-04-01T17:30:23Z) - Adversarial Feature Hallucination Networks for Few-Shot Learning [84.31660118264514]
Adversarial Feature Hallucination Networks (AFHN) は条件付き Wasserstein Generative Adversarial Network (cWGAN) に基づいている。
合成された特徴の識別性と多様性を促進するために、2つの新規レギュレータがAFHNに組み込まれている。
論文 参考訳(メタデータ) (2020-03-30T02:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。