論文の概要: Breaking Class Barriers: Efficient Dataset Distillation via Inter-Class Feature Compensator
- arxiv url: http://arxiv.org/abs/2408.06927v1
- Date: Tue, 13 Aug 2024 14:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:16:52.985323
- Title: Breaking Class Barriers: Efficient Dataset Distillation via Inter-Class Feature Compensator
- Title(参考訳): クラスバリアを壊す:クラス間特徴補償器による効率的なデータセット蒸留
- Authors: Xin Zhang, Jiawei Du, Ping Liu, Joey Tianyi Zhou,
- Abstract要約: クラス間特徴補償器(Inter-class Feature Compensator、INFER)は、現在のデータセット蒸留法で広く利用されているクラス固有のデータラベルフレームワークを超越する革新的な蒸留手法である。
INFERは、蒸留中のクラス間相互作用を強化し、蒸留データの有効性と一般化性を高める。
- 参考スコア(独自算出の注目度): 42.04363042234042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation has emerged as a technique aiming to condense informative features from large, natural datasets into a compact and synthetic form. While recent advancements have refined this technique, its performance is bottlenecked by the prevailing class-specific synthesis paradigm. Under this paradigm, synthetic data is optimized exclusively for a pre-assigned one-hot label, creating an implicit class barrier in feature condensation. This leads to inefficient utilization of the distillation budget and oversight of inter-class feature distributions, which ultimately limits the effectiveness and efficiency, as demonstrated in our analysis. To overcome these constraints, this paper presents the Inter-class Feature Compensator (INFER), an innovative distillation approach that transcends the class-specific data-label framework widely utilized in current dataset distillation methods. Specifically, INFER leverages a Universal Feature Compensator (UFC) to enhance feature integration across classes, enabling the generation of multiple additional synthetic instances from a single UFC input. This significantly improves the efficiency of the distillation budget. Moreover, INFER enriches inter-class interactions during the distillation, thereby enhancing the effectiveness and generalizability of the distilled data. By allowing for the linear interpolation of labels similar to those in the original dataset, INFER meticulously optimizes the synthetic data and dramatically reduces the size of soft labels in the synthetic dataset to almost zero, establishing a new benchmark for efficiency and effectiveness in dataset distillation.
- Abstract(参考訳): データセット蒸留は、大規模で自然なデータセットから情報的特徴をコンパクトで合成的な形式に凝縮する技術として登場した。
近年の進歩により、この技術は洗練されているが、その性能は一般的なクラス固有の合成パラダイムによってボトルネックになっている。
このパラダイムの下では、合成データは事前に割り当てられた1ホットラベルにのみ最適化され、特徴凝縮における暗黙のクラスバリアを生成する。
このことは, 蒸留予算の非効率利用, クラス間特徴分布の監視につながり, 最終的に有効性と効率を損なう結果となった。
これらの制約を克服するために,本論文では,現在のデータセット蒸留法で広く利用されているクラス固有のデータラベルフレームワークを超越した,革新的な蒸留手法であるInter-class Feature Compensator (INFER)を提案する。
特に、INFERはUniversal Feature Compensator (UFC)を活用して、クラス間の機能統合を強化し、単一のUFC入力から複数の合成インスタンスを生成する。
これにより蒸留予算の効率が大幅に向上する。
さらに、INFERは、蒸留中のクラス間相互作用を強化し、蒸留データの有効性と一般化性を高める。
従来のデータセットと同様のラベルの線形補間を可能にすることにより、INFERは、合成データを厳密に最適化し、合成データセットのソフトラベルのサイズをほぼゼロに減らし、データセットの蒸留における効率と有効性のための新しいベンチマークを確立する。
関連論文リスト
- Label-Augmented Dataset Distillation [13.449340904911725]
ラベル増量によるデータセット蒸留を強化するため,ラベル増量データセット蒸留(LADD)を導入する。
LADDはそれぞれの合成画像をサブサンプリングし、リッチなセマンティクスをキャプチャするためにさらに高密度なラベルを生成する。
3つの高性能なデータセット蒸留アルゴリズムにより、LADDは平均14.9%の精度で著しく向上した。
論文 参考訳(メタデータ) (2024-09-24T16:54:22Z) - Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - ATOM: Attention Mixer for Efficient Dataset Distillation [17.370852204228253]
本研究では,チャネルと空間的注意の混合を用いて,大規模データセットを効率よく抽出するモジュールを提案する。
どちらのタイプの注目も統合することで、ATOMモジュールは様々なコンピュータビジョンデータセットにまたがる優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-02T15:15:01Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Sequential Subset Matching for Dataset Distillation [44.322842898670565]
我々はSeqMatch(Sequential Subset Matching)と呼ばれる新しいデータセット蒸留戦略を提案する。
解析の結果,SeqMatchは合成インスタンスを逐次生成することで,結合問題に効果的に対処できることが示唆された。
私たちのコードはhttps://github.com/shqii1j/seqmatch.comから入手可能です。
論文 参考訳(メタデータ) (2023-11-02T19:49:11Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。