論文の概要: FairDD: Fair Dataset Distillation via Synchronized Matching
- arxiv url: http://arxiv.org/abs/2411.19623v1
- Date: Fri, 29 Nov 2024 11:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:28.423845
- Title: FairDD: Fair Dataset Distillation via Synchronized Matching
- Title(参考訳): FairDD: 同期マッチングによるフェアデータセット蒸留
- Authors: Qihang Zhou, Shenhao Fang, Shibo He, Wenchao Meng, Jiming Chen,
- Abstract要約: 本稿では,FairDDという新しいフェアデータセット蒸留(FDD)フレームワークを提案する。
FairDDの鍵となるイノベーションは、同期的に合成データセットを元のデータセットのPAワイドグループにマッチングすることにある。
分類精度を犠牲にすることなく,FairDDはバニラDD法に比べて公平性を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 13.60524473223155
- License:
- Abstract: Condensing large datasets into smaller synthetic counterparts has demonstrated its promise for image classification. However, previous research has overlooked a crucial concern in image recognition: ensuring that models trained on condensed datasets are unbiased towards protected attributes (PA), such as gender and race. Our investigation reveals that dataset distillation (DD) fails to alleviate the unfairness towards minority groups within original datasets. Moreover, this bias typically worsens in the condensed datasets due to their smaller size. To bridge the research gap, we propose a novel fair dataset distillation (FDD) framework, namely FairDD, which can be seamlessly applied to diverse matching-based DD approaches, requiring no modifications to their original architectures. The key innovation of FairDD lies in synchronously matching synthetic datasets to PA-wise groups of original datasets, rather than indiscriminate alignment to the whole distributions in vanilla DDs, dominated by majority groups. This synchronized matching allows synthetic datasets to avoid collapsing into majority groups and bootstrap their balanced generation to all PA groups. Consequently, FairDD could effectively regularize vanilla DDs to favor biased generation toward minority groups while maintaining the accuracy of target attributes. Theoretical analyses and extensive experimental evaluations demonstrate that FairDD significantly improves fairness compared to vanilla DD methods, without sacrificing classification accuracy. Its consistent superiority across diverse DDs, spanning Distribution and Gradient Matching, establishes it as a versatile FDD approach.
- Abstract(参考訳): 大規模なデータセットをより小さな合成データセットに集約することは、画像分類の可能性を実証している。
しかし、以前の研究では、画像認識において重要な関心事として、凝縮データセットでトレーニングされたモデルが、性別や人種などの保護属性(PA)に対して偏りがないことが確認されていた。
本研究により, データセット蒸留(DD)は, 原データセット内の少数グループに対する不公平さを軽減できないことが明らかとなった。
さらに、このバイアスは、小さくなったため、凝縮データセットでは通常悪化する。
研究ギャップを埋めるために,FairDDと呼ばれる新しいフェアデータセット蒸留(FDD)フレームワークを提案する。
FairDDの鍵となる革新は、多数派が支配するバニラDDの分布全体への非差別的なアライメントではなく、合成データセットをPAワイドなオリジナルのデータセットのグループに同期的にマッチングすることである。
この同期マッチングにより、合成データセットは多数派に崩壊することを避け、バランスの取れた世代をすべてのPAグループにブートストラップすることができる。
その結果、FairDDは、ターゲット属性の精度を維持しながら、バニラDDを効果的に規則化し、少数派に対して偏りのある生成を好んだ。
理論的解析と広範囲な実験的評価により,FairDDは分類精度を犠牲にすることなく,バニラDD法に比べてフェアネスを著しく向上することが示された。
分散とグラディエントマッチングにまたがる多様なDDにまたがる一貫性のある優位性は、汎用的なFDDアプローチとして確立している。
関連論文リスト
- Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Dataset Distillation from First Principles: Integrating Core Information Extraction and Purposeful Learning [10.116674195405126]
我々は、基礎となる最適化問題の正確な特徴付けは、関心の応用に関連する推論タスクを指定しなければならないと論じる。
我々の形式化は、様々なモデリング環境にまたがるDDの新たな応用を明らかにします。
現代の環境において重要な2つのケーススタディについて数値的な結果を示す。
論文 参考訳(メタデータ) (2024-09-02T18:11:15Z) - Distilling Long-tailed Datasets [13.330572317331198]
本稿では,Long-tailed dataset Aware distillation (LAD) を新たに提案する。
LADは、学生と偏見のある専門家の軌跡の間の距離を減らし、テールクラスの偏見が合成データセットに蒸留されるのを防ぐ。
この研究は長い尾のデータセット蒸留(LTDD)の分野を開拓し、長い尾のデータセットを蒸留する最初の効果的な取り組みとなった。
論文 参考訳(メタデータ) (2024-08-24T15:36:36Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Exploring the Impact of Dataset Bias on Dataset Distillation [10.742404631413029]
データセット蒸留(DD)におけるデータセットバイアスの影響について検討する。
DDは、オリジナルのデータセットから必須情報を保持する小さなデータセットを合成するテクニックである。
実験により、元のデータセットに存在するバイアスが合成データセットのパフォーマンスに大きな影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-03-24T06:10:22Z) - DreamDA: Generative Data Augmentation with Diffusion Models [68.22440150419003]
本稿では,新しい分類指向フレームワークDreamDAを提案する。
DreamDAは、オリジナルのデータのトレーニングイメージを種として考慮して、オリジナルのデータ分布に準拠する多様なサンプルを生成する。
また、生成したデータのラベルは、対応するシード画像のラベルと一致しない可能性があるため、擬似ラベルを生成するための自己学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-19T15:04:35Z) - Towards Trustworthy Dataset Distillation [26.361077372859498]
データセット蒸留(DD)は、大規模なデータセットを小さな合成データセットに蒸留することで、トレーニングコストを削減する。
我々はTrustDD(Trustworthy dataset Distillation)と呼ばれる新しいパラダイムを提案する。
InDサンプルと外れ値の両方を蒸留することにより、凝縮データセットは、InD分類とOOD検出の両方に適するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2023-07-18T11:43:01Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。