論文の概要: Fair4Free: Generating High-fidelity Fair Synthetic Samples using Data Free Distillation
- arxiv url: http://arxiv.org/abs/2410.01423v1
- Date: Wed, 2 Oct 2024 11:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:09:23.652887
- Title: Fair4Free: Generating High-fidelity Fair Synthetic Samples using Data Free Distillation
- Title(参考訳): Fair4Free:データフリー蒸留による高忠実度フェアシンセティックサンプルの生成
- Authors: Md Fahim Sikder, Daniel de Leng, Fredrik Heintz,
- Abstract要約: 本研究は, 潜水空間におけるデータフリー蒸留を用いて合成フェアデータを生成する新しい生成モデルを提案する。
提案手法では,まず教師モデルを訓練して公正表現を作成し,その知識を学生モデルに流用する。
学生モデルを蒸留するプロセスはデータフリーであり、すなわち、学生モデルは蒸留中にトレーニングデータセットにアクセスできない。
- 参考スコア(独自算出の注目度): 4.915744683251151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents Fair4Free, a novel generative model to generate synthetic fair data using data-free distillation in the latent space. Fair4Free can work on the situation when the data is private or inaccessible. In our approach, we first train a teacher model to create fair representation and then distil the knowledge to a student model (using a smaller architecture). The process of distilling the student model is data-free, i.e. the student model does not have access to the training dataset while distilling. After the distillation, we use the distilled model to generate fair synthetic samples. Our extensive experiments show that our synthetic samples outperform state-of-the-art models in all three criteria (fairness, utility and synthetic quality) with a performance increase of 5% for fairness, 8% for utility and 12% in synthetic quality for both tabular and image datasets.
- Abstract(参考訳): この研究は、潜在空間におけるデータフリー蒸留を用いて合成公正データを生成する新しい生成モデルであるFair4Freeを提示する。
Fair4Freeは、データがプライベートでもアクセス不能でも、状況に対処できる。
このアプローチでは、まず教師モデルをトレーニングし、公正な表現を作成し、その後、(より小さなアーキテクチャを使って)学生モデルに知識を流用する。
学生モデルを蒸留するプロセスはデータフリーであり、すなわち、学生モデルは蒸留中にトレーニングデータセットにアクセスできない。
蒸留後, 蒸留モデルを用いて, 公正な合成試料を生成する。
以上の結果から,3つの基準(公正性,実用性,合成品質)において,我々の合成サンプルは,正当性,実用性,合成品質の5パーセント,実用性8%,合成品質の12%を達成できた。
関連論文リスト
- Generating Synthetic Fair Syntax-agnostic Data by Learning and Distilling Fair Representation [4.1942958779358674]
既存のバイアス緩和生成法は、公平性目標を処理し、計算オーバーヘッドを考慮するのに失敗する。
我々は知識蒸留に基づく公正なデータ生成手法を提案し、そこでは小さなアーキテクチャを用いて潜在空間における公正な表現を蒸留する。
提案手法は, 最先端の公正生成モデルに比べて, フェアネス, 合成試料品質およびデータ有用性において, 5%, 5%, 10%の上昇を示した。
論文 参考訳(メタデータ) (2024-08-20T11:37:52Z) - uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes [34.947522647009436]
ラベル付きデータを用いることなく,大きなWhisperモデルを比較的小さなモデルに蒸留できることを示す。
私たちのモデルは、教師モデルと同等以上の性能を維持しながら、計算効率とメモリ効率も25~50%向上しています。
論文 参考訳(メタデータ) (2024-07-01T13:07:01Z) - SFDDM: Single-fold Distillation for Diffusion models [4.688721356965585]
本研究では,教師の拡散モデルを任意のステップの生徒モデルに柔軟に圧縮できる一次元蒸留アルゴリズムSFDDMを提案する。
4つのデータセットの実験では、SFDDMは、ステップを約1%に減らした高品質なデータをサンプリングできることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:11:14Z) - Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。
対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。
本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-12T06:08:43Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Differentially Private Diffusion Models Generate Useful Synthetic Images [53.94025967603649]
近年の研究では、いくつかの拡散モデルの出力がトレーニングデータのプライバシを保持していないことが報告されている。
CIFAR-10 と Camelyon17 のSOTA 結果を得た。
以上の結果から,差分プライバシーで微調整された拡散モデルが有用かつ実証可能なプライベートな合成データを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-02-27T15:02:04Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。