論文の概要: GIFT: Unlocking Full Potential of Labels in Distilled Dataset at Near-zero Cost
- arxiv url: http://arxiv.org/abs/2405.14736v1
- Date: Thu, 23 May 2024 16:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 14:06:33.630773
- Title: GIFT: Unlocking Full Potential of Labels in Distilled Dataset at Near-zero Cost
- Title(参考訳): GIFT: ほぼゼロのコストで蒸留されたデータセットにラベルの完全な可能性を解き放つ
- Authors: Xinyi Shang, Peng Sun, Tao Lin,
- Abstract要約: ラベルのフル活用を強調することによって,新しい視点を導入する。
本稿では,ソフトラベルの精細化とコサイン類似度に基づく損失関数を含むGIFTを紹介する。
GIFTは、計算コストを増大させることなく、最先端のデータセット蒸留法を一貫して強化する。
- 参考スコア(独自算出の注目度): 7.05277588099645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in dataset distillation have demonstrated the significant benefits of employing soft labels generated by pre-trained teacher models. In this paper, we introduce a novel perspective by emphasizing the full utilization of labels. We first conduct a comprehensive comparison of various loss functions for soft label utilization in dataset distillation, revealing that the model trained on the synthetic dataset exhibits high sensitivity to the choice of loss function for soft label utilization. This finding highlights the necessity of a universal loss function for training models on synthetic datasets. Building on these insights, we introduce an extremely simple yet surprisingly effective plug-and-play approach, GIFT, which encompasses soft label refinement and a cosine similarity-based loss function to efficiently leverage full label information. Extensive experiments demonstrate that GIFT consistently enhances the state-of-the-art dataset distillation methods across various scales datasets without incurring additional computational costs. For instance, on ImageNet-1K with IPC = 10, GIFT improves the SOTA method RDED by 3.9% and 1.8% on ConvNet and ResNet-18, respectively. Code: https://github.com/LINs-lab/GIFT.
- Abstract(参考訳): データセット蒸留の最近の進歩は、事前訓練された教師モデルによって生成されたソフトラベルを使うことによる重要な利点を示している。
本稿では,ラベルのフル活用を重視した新しい視点を紹介する。
まず, データセット蒸留におけるソフトラベル利用における損失関数の総合的な比較を行い, そのモデルがソフトラベル利用における損失関数の選択に対して高い感度を示すことを示した。
この発見は、合成データセットのトレーニングモデルのための普遍的損失関数の必要性を強調している。
これらの知見に基づいて,ソフトラベルの改良とコサイン類似性に基づく損失関数を包含し,完全なラベル情報を効率的に活用する,極めて単純かつ驚くほど効果的なプラグイン・アンド・プレイ・アプローチであるGIFTを導入する。
大規模な実験により、GIFTは計算コストを増大させることなく、様々なスケールのデータセットにわたる最先端のデータセット蒸留手法を一貫して強化することを示した。
例えば、ImageNet-1Kでは、ICC = 10で、GIFTは、それぞれConvNetとResNet-18で3.9%改善し、1.8%改善した。
コード:https://github.com/LINs-lab/GIFT。
関連論文リスト
- Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - DRUPI: Dataset Reduction Using Privileged Information [20.59889438709671]
データセットリダクション(DR)は、ターゲットタスクのパフォーマンスを維持しながら、大規模なデータセットからより小さなサブセットにサンプルを選択または蒸留する。
本稿では,DRUPI(Privleged Information)を用いたデータセットリダクションについて紹介する。
我々の研究結果によると、効果的な特徴ラベルは過度に差別的かつ過度に多様性があり、中程度のレベルがデータセットの有効性を改善するのに最適であることが判明した。
論文 参考訳(メタデータ) (2024-10-02T14:49:05Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - Breaking Class Barriers: Efficient Dataset Distillation via Inter-Class Feature Compensator [42.04363042234042]
クラス間特徴補償器(Inter-class Feature Compensator、INFER)は、現在のデータセット蒸留法で広く利用されているクラス固有のデータラベルフレームワークを超越する革新的な蒸留手法である。
INFERは、蒸留中のクラス間相互作用を強化し、蒸留データの有効性と一般化性を高める。
論文 参考訳(メタデータ) (2024-08-13T14:29:00Z) - A Label is Worth a Thousand Images in Dataset Distillation [16.272675455429006]
データ$textitquality$は、機械学習モデルのパフォーマンスにおいて重要な要素である。
本研究では, 最先端蒸留法の性能を説明する主な要因は, 合成データを生成する技術ではなく, ソフトラベルの利用であることを示す。
論文 参考訳(メタデータ) (2024-06-15T03:30:29Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Enhancing Label Sharing Efficiency in Complementary-Label Learning with
Label Augmentation [92.4959898591397]
学習中に近隣の事例における補完ラベルの暗黙的な共有を分析した。
相補的なラベル拡張による共有効率を向上させる新しい手法を提案する。
実験結果から,従来のCLLモデルよりも相補的ラベル拡張により経験的性能が向上することが確認された。
論文 参考訳(メタデータ) (2023-05-15T04:43:14Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文 参考訳(メタデータ) (2022-02-03T18:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。