論文の概要: Distill the Best, Ignore the Rest: Improving Dataset Distillation with Loss-Value-Based Pruning
- arxiv url: http://arxiv.org/abs/2411.12115v1
- Date: Mon, 18 Nov 2024 22:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:25.113666
- Title: Distill the Best, Ignore the Rest: Improving Dataset Distillation with Loss-Value-Based Pruning
- Title(参考訳): 最良を希釈し、残りを無視する:損失値に基づくプルーニングによるデータセット蒸留の改善
- Authors: Brian B. Moser, Federico Raue, Tobias C. Nauen, Stanislav Frolov, Andreas Dengel,
- Abstract要約: 『プーン・ファースト・ディスティル・アフター』フレームワークは、蒸留に先立って、損失ベースのサンプリングを通じてデータセットをプーンする。
提案手法は蒸留品質を著しく向上させ, 最大5.2ポイントの精度向上を実現した。
- 参考スコア(独自算出の注目度): 8.69908615905782
- License:
- Abstract: Dataset distillation has gained significant interest in recent years, yet existing approaches typically distill from the entire dataset, potentially including non-beneficial samples. We introduce a novel "Prune First, Distill After" framework that systematically prunes datasets via loss-based sampling prior to distillation. By leveraging pruning before classical distillation techniques and generative priors, we create a representative core-set that leads to enhanced generalization for unseen architectures - a significant challenge of current distillation methods. More specifically, our proposed framework significantly boosts distilled quality, achieving up to a 5.2 percentage points accuracy increase even with substantial dataset pruning, i.e., removing 80% of the original dataset prior to distillation. Overall, our experimental results highlight the advantages of our easy-sample prioritization and cross-architecture robustness, paving the way for more effective and high-quality dataset distillation.
- Abstract(参考訳): 近年、データセットの蒸留は大きな関心を集めているが、既存のアプローチは一般的にデータセット全体から抽出され、非便益的なサンプルを含む可能性がある。
蒸留前に損失に基づくサンプリングによってデータセットを体系的にプーンする新しいフレームワーク「プーン・ファースト・ディスティル・アフター」を導入する。
古典的な蒸留技術と生成前駆体を前駆体としてプルーニングを活用することにより, 現状の蒸留手法における重要な課題である未確認アーキテクチャの一般化を促進する代表的コアセットを作成する。
より具体的には,本フレームワークは蒸留前の原データセットの80%を除去し,実質的なデータセットプルーニングにおいても最大5.2ポイントの精度向上を実現し,蒸留品質を著しく向上させる。
実験の結果は, より効率的で高品質なデータセット蒸留の道を開くことで, 簡便な優先順位付けとクロスアーキテクチャの堅牢性の利点を浮き彫りにした。
関連論文リスト
- Label-Augmented Dataset Distillation [13.449340904911725]
ラベル増量によるデータセット蒸留を強化するため,ラベル増量データセット蒸留(LADD)を導入する。
LADDはそれぞれの合成画像をサブサンプリングし、リッチなセマンティクスをキャプチャするためにさらに高密度なラベルを生成する。
3つの高性能なデータセット蒸留アルゴリズムにより、LADDは平均14.9%の精度で著しく向上した。
論文 参考訳(メタデータ) (2024-09-24T16:54:22Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - Practical Dataset Distillation Based on Deep Support Vectors [27.16222034423108]
本稿では,データセット全体のごく一部にのみアクセス可能な実運用シナリオにおけるデータセット蒸留に着目した。
本稿では,Deep KKT (DKKT) の損失を付加することにより,一般的なモデル知識を取り入れ,従来のプロセスを強化する新しい蒸留法を提案する。
CIFAR-10データセットのベースライン分布マッチング蒸留法と比較して,本手法では性能が向上した。
論文 参考訳(メタデータ) (2024-05-01T06:41:27Z) - DD-RobustBench: An Adversarial Robustness Benchmark for Dataset Distillation [25.754877176280708]
我々は,蒸留したデータセットの対角的堅牢性を統一的に評価する上で,これまでで最も広範囲なベンチマークを導入する。
TESLAやSRe2Lといった最新の進歩を取り入れることで,これまでの取り組みを大きく拡張する。
また, 蒸留したデータを元のデータセットのトレーニングバッチに組み込むことで, 堅牢性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-20T06:00:53Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Explicit and Implicit Knowledge Distillation via Unlabeled Data [5.702176304876537]
高速な計算機生成装置を代替する効率的な未ラベルサンプル選択法を提案する。
また,データ領域シフトによるラベルノイズを抑制するためのクラスドロップ機構を提案する。
実験結果から,本手法が他の最先端手法よりも高速に収束し,精度が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:10:41Z) - Dataset Distillation Using Parameter Pruning [53.79746115426363]
提案手法は, より堅牢な蒸留データセットを合成し, 蒸留過程での難解なパラメータを抽出することにより, 蒸留性能を向上させることができる。
2つのベンチマークデータセットの実験結果から,提案手法の優位性を示した。
論文 参考訳(メタデータ) (2022-09-29T07:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。