論文の概要: Mitigating Bias in Dataset Distillation
- arxiv url: http://arxiv.org/abs/2406.06609v2
- Date: Wed, 10 Jul 2024 17:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 20:50:13.011164
- Title: Mitigating Bias in Dataset Distillation
- Title(参考訳): データセット蒸留におけるバイアスの緩和
- Authors: Justin Cui, Ruochen Wang, Yuanhao Xiong, Cho-Jui Hsieh,
- Abstract要約: 原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
- 参考スコア(独自算出の注目度): 62.79454960378792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset Distillation has emerged as a technique for compressing large datasets into smaller synthetic counterparts, facilitating downstream training tasks. In this paper, we study the impact of bias inside the original dataset on the performance of dataset distillation. With a comprehensive empirical evaluation on canonical datasets with color, corruption and background biases, we found that color and background biases in the original dataset will be amplified through the distillation process, resulting in a notable decline in the performance of models trained on the distilled dataset, while corruption bias is suppressed through the distillation process. To reduce bias amplification in dataset distillation, we introduce a simple yet highly effective approach based on a sample reweighting scheme utilizing kernel density estimation. Empirical results on multiple real-world and synthetic datasets demonstrate the effectiveness of the proposed method. Notably, on CMNIST with 5% bias-conflict ratio and IPC 50, our method achieves 91.5% test accuracy compared to 23.8% from vanilla DM, boosting the performance by 67.7%, whereas applying state-of-the-art debiasing method on the same dataset only achieves 53.7% accuracy. Our findings highlight the importance of addressing biases in dataset distillation and provide a promising avenue to address bias amplification in the process.
- Abstract(参考訳): データセット蒸留は、大規模なデータセットを小さな合成データセットに圧縮する技術として登場し、下流でのトレーニング作業を容易にする。
本稿では,元のデータセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討する。
その結果, 蒸留工程により, 原データセットの色と背景バイアスが増幅され, 蒸留工程を通じて汚染バイアスが抑制される一方で, 蒸留工程においてトレーニングされたモデルの性能が著しく低下することが判明した。
データセット蒸留におけるバイアス増幅を低減するため,カーネル密度推定を用いたサンプル再重み付け方式に基づく簡易かつ高効率な手法を提案する。
複数の実世界および合成データセットに対する実験結果から,提案手法の有効性が示された。
特に, バイアス-衝突比5%, IPC 50のCMNISTでは, バニラDMの23.8%と比較して91.5%の精度を実現し, 67.7%の精度向上を実現した。
本研究は, データセット蒸留におけるバイアスに対処することの重要性を強調し, プロセスにおけるバイアス増幅への有望な道を提供するものである。
関連論文リスト
- Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Practical Dataset Distillation Based on Deep Support Vectors [27.16222034423108]
本稿では,データセット全体のごく一部にのみアクセス可能な実運用シナリオにおけるデータセット蒸留に着目した。
本稿では,Deep KKT (DKKT) の損失を付加することにより,一般的なモデル知識を取り入れ,従来のプロセスを強化する新しい蒸留法を提案する。
CIFAR-10データセットのベースライン分布マッチング蒸留法と比較して,本手法では性能が向上した。
論文 参考訳(メタデータ) (2024-05-01T06:41:27Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。