論文の概要: Generating Synthetic Fair Syntax-agnostic Data by Learning and Distilling Fair Representation
- arxiv url: http://arxiv.org/abs/2408.10755v1
- Date: Tue, 20 Aug 2024 11:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 13:55:03.948805
- Title: Generating Synthetic Fair Syntax-agnostic Data by Learning and Distilling Fair Representation
- Title(参考訳): フェア表現の学習と蒸留による合成フェア構文非依存データの生成
- Authors: Md Fahim Sikder, Resmi Ramachandranpillai, Daniel de Leng, Fredrik Heintz,
- Abstract要約: 既存のバイアス緩和生成法は、公平性目標を処理し、計算オーバーヘッドを考慮するのに失敗する。
我々は知識蒸留に基づく公正なデータ生成手法を提案し、そこでは小さなアーキテクチャを用いて潜在空間における公正な表現を蒸留する。
提案手法は, 最先端の公正生成モデルに比べて, フェアネス, 合成試料品質およびデータ有用性において, 5%, 5%, 10%の上昇を示した。
- 参考スコア(独自算出の注目度): 4.1942958779358674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data Fairness is a crucial topic due to the recent wide usage of AI powered applications. Most of the real-world data is filled with human or machine biases and when those data are being used to train AI models, there is a chance that the model will reflect the bias in the training data. Existing bias-mitigating generative methods based on GANs, Diffusion models need in-processing fairness objectives and fail to consider computational overhead while choosing computationally-heavy architectures, which may lead to high computational demands, instability and poor optimization performance. To mitigate this issue, in this work, we present a fair data generation technique based on knowledge distillation, where we use a small architecture to distill the fair representation in the latent space. The idea of fair latent space distillation enables more flexible and stable training of Fair Generative Models (FGMs). We first learn a syntax-agnostic (for any data type) fair representation of the data, followed by distillation in the latent space into a smaller model. After distillation, we use the distilled fair latent space to generate high-fidelity fair synthetic data. While distilling, we employ quality loss (for fair distillation) and utility loss (for data utility) to ensure that the fairness and data utility characteristics remain in the distilled latent space. Our approaches show a 5%, 5% and 10% rise in performance in fairness, synthetic sample quality and data utility, respectively, than the state-of-the-art fair generative model.
- Abstract(参考訳): データフェアネス(Data Fairness)は、最近のAI駆動アプリケーションの普及による重要なトピックである。
現実世界のデータのほとんどは人や機械のバイアスで満たされており、それらのデータがAIモデルのトレーニングに使用されている場合、モデルはトレーニングデータのバイアスを反映する可能性がある。
既存のGANに基づくバイアス緩和生成手法では、ディフュージョンモデルは、計算量の多いアーキテクチャを選択しながら計算上のオーバーヘッドを考慮せず、高い計算要求、不安定性、最適化性能を損なう可能性がある。
この問題を軽減するため,本研究では,知識蒸留に基づく公正なデータ生成手法を提案する。
フェア潜在空間蒸留のアイデアは、より柔軟で安定したフェア生成モデル(FGM)の訓練を可能にする。
まず、データの構文に依存しない(どんなデータ型に対しても)公正な表現を学び、次に潜在空間でより小さなモデルに蒸留する。
蒸留後, 蒸留したフェアラテント空間を用いて高忠実度フェア合成データを生成する。
蒸留では, 品質損失 (公正蒸留用) とユーティリティ損失 (データユーティリティ用) を用いて, 蒸留された潜在空間に公平さとデータユーティリティ特性が残ることを保証する。
提案手法は, 最先端の公正生成モデルに比べて, フェアネス, 合成試料品質およびデータ有用性において, 5%, 5%, 10%の上昇を示した。
関連論文リスト
- Data Augmentation via Diffusion Model to Enhance AI Fairness [1.2979015577834876]
本稿では,AIフェアネスを改善するために合成データを生成する拡散モデルの可能性について検討する。
Tabular Denoising Diffusion Probabilistic Model (Tab-DDPM) を用いてデータ拡張を行った。
実験結果から,Tab-DDPMにより生成された合成データは,二項分類の公平性を向上させることが示された。
論文 参考訳(メタデータ) (2024-10-20T18:52:31Z) - Fair4Free: Generating High-fidelity Fair Synthetic Samples using Data Free Distillation [4.915744683251151]
本研究は, 潜水空間におけるデータフリー蒸留を用いて合成フェアデータを生成する新しい生成モデルを提案する。
提案手法では,まず教師モデルを訓練して公正表現を作成し,その知識を学生モデルに流用する。
学生モデルを蒸留するプロセスはデータフリーであり、すなわち、学生モデルは蒸留中にトレーニングデータセットにアクセスできない。
論文 参考訳(メタデータ) (2024-10-02T11:16:11Z) - Mind the Gap Between Synthetic and Real: Utilizing Transfer Learning to Probe the Boundaries of Stable Diffusion Generated Data [2.6016285265085526]
学生モデルは、実際のデータで訓練されたモデルと比較して、精度が著しく低下している。
実データまたは合成データを用いてこれらのレイヤをトレーニングすることにより、ドロップが主にモデルの最終的なレイヤに由来することを明らかにする。
この結果から,実際のトレーニングデータの量とモデルの精度とのトレードオフの改善が示唆された。
論文 参考訳(メタデータ) (2024-05-06T07:51:13Z) - Unlocking the Potential of Federated Learning: The Symphony of Dataset
Distillation via Deep Generative Latents [43.282328554697564]
本稿ではサーバ側のFLデータセット蒸留フレームワークを提案する。
従来の手法とは異なり,サーバは事前学習した深層生成モデルから事前知識を活用できる。
我々のフレームワークは、サーバが複数の異種データ分散を訓練するのではなく、マルチモーダル分布を訓練するため、ベースラインよりも早く収束する。
論文 参考訳(メタデータ) (2023-12-03T23:30:48Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。