論文の概要: Exploring the Impact of Dataset Bias on Dataset Distillation
- arxiv url: http://arxiv.org/abs/2403.16028v1
- Date: Sun, 24 Mar 2024 06:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:55:17.225769
- Title: Exploring the Impact of Dataset Bias on Dataset Distillation
- Title(参考訳): データセット蒸留におけるデータセットバイアスの影響を探る
- Authors: Yao Lu, Jianyang Gu, Xuguang Chen, Saeed Vahidian, Qi Xuan,
- Abstract要約: データセット蒸留(DD)におけるデータセットバイアスの影響について検討する。
DDは、オリジナルのデータセットから必須情報を保持する小さなデータセットを合成するテクニックである。
実験により、元のデータセットに存在するバイアスが合成データセットのパフォーマンスに大きな影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 10.742404631413029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset Distillation (DD) is a promising technique to synthesize a smaller dataset that preserves essential information from the original dataset. This synthetic dataset can serve as a substitute for the original large-scale one, and help alleviate the training workload. However, current DD methods typically operate under the assumption that the dataset is unbiased, overlooking potential bias issues within the dataset itself. To fill in this blank, we systematically investigate the influence of dataset bias on DD. To the best of our knowledge, this is the first exploration in the DD domain. Given that there are no suitable biased datasets for DD, we first construct two biased datasets, CMNIST-DD and CCIFAR10-DD, to establish a foundation for subsequent analysis. Then we utilize existing DD methods to generate synthetic datasets on CMNIST-DD and CCIFAR10-DD, and evaluate their performance following the standard process. Experiments demonstrate that biases present in the original dataset significantly impact the performance of the synthetic dataset in most cases, which highlights the necessity of identifying and mitigating biases in the original datasets during DD. Finally, we reformulate DD within the context of a biased dataset. Our code along with biased datasets are available at https://github.com/yaolu-zjut/Biased-DD.
- Abstract(参考訳): Dataset Distillation (DD)は、オリジナルのデータセットから必須情報を保持する小さなデータセットを合成するための有望なテクニックである。
この合成データセットは、元々の大規模データセットの代用として機能し、トレーニングワークロードを軽減するのに役立つ。
しかしながら、現在のDDメソッドは通常、データセット自体の潜在的なバイアス問題を見越して、データセットがバイアスのないという仮定の下で動作します。
この空白を埋めるために,DDに対するデータセットバイアスの影響を系統的に検討する。
私たちの知る限りでは、DDドメインにおける最初の探索です。
DDに適切なバイアス付きデータセットがないことを考慮し、まずCMNIST-DDとCCIFAR10-DDという2つのバイアス付きデータセットを構築し、その後の分析の基礎を確立する。
次に,既存のDD法を用いてCMNIST-DDとCCIFAR10-DDの合成データセットを生成し,それらの性能評価を行った。
実験では、元のデータセットに存在するバイアスが、ほとんどのケースで合成データセットのパフォーマンスに大きく影響することを示し、DD中の元のデータセットのバイアスを特定し緩和する必要性を強調している。
最後に、偏りのあるデータセットのコンテキスト内でDDを再構成する。
私たちのコードとバイアス付きデータセットはhttps://github.com/yaolu-zjut/Biased-DD.orgで公開されています。
関連論文リスト
- Dataset Distillation from First Principles: Integrating Core Information Extraction and Purposeful Learning [10.116674195405126]
我々は、基礎となる最適化問題の正確な特徴付けは、関心の応用に関連する推論タスクを指定しなければならないと論じる。
我々の形式化は、様々なモデリング環境にまたがるDDの新たな応用を明らかにします。
現代の環境において重要な2つのケーススタディについて数値的な結果を示す。
論文 参考訳(メタデータ) (2024-09-02T18:11:15Z) - Distilling Long-tailed Datasets [13.330572317331198]
本稿では,Long-tailed dataset Aware distillation (LAD) を新たに提案する。
LADは、学生と偏見のある専門家の軌跡の間の距離を減らし、テールクラスの偏見が合成データセットに蒸留されるのを防ぐ。
この研究は長い尾のデータセット蒸留(LTDD)の分野を開拓し、長い尾のデータセットを蒸留する最初の効果的な取り組みとなった。
論文 参考訳(メタデータ) (2024-08-24T15:36:36Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Can pre-trained models assist in dataset distillation? [21.613468512330442]
事前訓練されたモデル(PTM)は知識リポジトリとして機能し、元のデータセットからの広範な情報を含んでいる。
PTMは、知識を合成データセットに効果的に転送し、DDを正確に導くことができますか?
我々は,初期化パラメータ,モデルアーキテクチャ,エポックトレーニング,ドメイン知識など,PTMのさまざまな選択肢を体系的に研究する。
論文 参考訳(メタデータ) (2023-10-05T03:51:21Z) - Evaluating the effect of data augmentation and BALD heuristics on
distillation of Semantic-KITTI dataset [63.20765930558542]
Active Learningは、自律運転データセットにおけるLiDAR知覚タスクに対して、比較的未調査のままである。
本研究では,データセット蒸留やコアサブセット選択のタスクに適用したベイズ能動学習手法を評価する。
また,ベイジアンALを用いたデータセット蒸留におけるデータ拡張の適用効果についても検討した。
論文 参考訳(メタデータ) (2023-02-21T13:56:47Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。