論文の概要: Label-Augmented Dataset Distillation
- arxiv url: http://arxiv.org/abs/2409.16239v1
- Date: Tue, 24 Sep 2024 16:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:07:38.052779
- Title: Label-Augmented Dataset Distillation
- Title(参考訳): ラベル拡張型データセット蒸留
- Authors: Seoungyoon Kang, Youngsun Lim, Hyunjung Shim,
- Abstract要約: ラベル増量によるデータセット蒸留を強化するため,ラベル増量データセット蒸留(LADD)を導入する。
LADDはそれぞれの合成画像をサブサンプリングし、リッチなセマンティクスをキャプチャするためにさらに高密度なラベルを生成する。
3つの高性能なデータセット蒸留アルゴリズムにより、LADDは平均14.9%の精度で著しく向上した。
- 参考スコア(独自算出の注目度): 13.449340904911725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional dataset distillation primarily focuses on image representation while often overlooking the important role of labels. In this study, we introduce Label-Augmented Dataset Distillation (LADD), a new dataset distillation framework enhancing dataset distillation with label augmentations. LADD sub-samples each synthetic image, generating additional dense labels to capture rich semantics. These dense labels require only a 2.5% increase in storage (ImageNet subsets) with significant performance benefits, providing strong learning signals. Our label generation strategy can complement existing dataset distillation methods for significantly enhancing their training efficiency and performance. Experimental results demonstrate that LADD outperforms existing methods in terms of computational overhead and accuracy. With three high-performance dataset distillation algorithms, LADD achieves remarkable gains by an average of 14.9% in accuracy. Furthermore, the effectiveness of our method is proven across various datasets, distillation hyperparameters, and algorithms. Finally, our method improves the cross-architecture robustness of the distilled dataset, which is important in the application scenario.
- Abstract(参考訳): 伝統的なデータセットの蒸留は主にイメージ表現に焦点を当てているが、しばしばラベルの重要な役割を見下ろしている。
本研究では,ラベル拡張によるデータセット蒸留を促進する新しいデータセット蒸留フレームワークであるラベル拡張データセット蒸留(LADD)について紹介する。
LADDはそれぞれの合成画像をサブサンプリングし、リッチなセマンティクスをキャプチャするためにさらに高密度なラベルを生成する。
これらの高密度ラベルはストレージ(ImageNetサブセット)をわずか2.5%増加させるだけでよい。
我々のラベル生成戦略は既存のデータセット蒸留法を補完し、トレーニング効率と性能を大幅に向上させることができる。
実験の結果,LADDは計算オーバーヘッドと精度で既存手法よりも優れていた。
3つの高性能なデータセット蒸留アルゴリズムにより、LADDは平均14.9%の精度で著しく向上した。
さらに, 提案手法の有効性は, 種々のデータセット, 蒸留ハイパーパラメータ, アルゴリズムにまたがって証明されている。
最後に,本手法は,蒸留データセットのクロスアーキテクチャロバスト性を向上させる。
関連論文リスト
- Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - A Label is Worth a Thousand Images in Dataset Distillation [16.272675455429006]
データ$textitquality$は、機械学習モデルのパフォーマンスにおいて重要な要素である。
本研究では, 最先端蒸留法の性能を説明する主な要因は, 合成データを生成する技術ではなく, ソフトラベルの利用であることを示す。
論文 参考訳(メタデータ) (2024-06-15T03:30:29Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - ATOM: Attention Mixer for Efficient Dataset Distillation [17.370852204228253]
本研究では,チャネルと空間的注意の混合を用いて,大規模データセットを効率よく抽出するモジュールを提案する。
どちらのタイプの注目も統合することで、ATOMモジュールは様々なコンピュータビジョンデータセットにまたがる優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-02T15:15:01Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - Flexible Dataset Distillation: Learn Labels Instead of Images [44.73351338165214]
我々の新しいアルゴリズムでラベルを蒸留すると、以前の画像に基づく蒸留よりも良い結果が得られる。
従来のイメージベースによるデータセット蒸留法よりも効果的であることを示す。
論文 参考訳(メタデータ) (2020-06-15T17:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。