論文の概要: Heavy Labels Out! Dataset Distillation with Label Space Lightening
- arxiv url: http://arxiv.org/abs/2408.08201v1
- Date: Thu, 15 Aug 2024 15:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:36:33.518004
- Title: Heavy Labels Out! Dataset Distillation with Label Space Lightening
- Title(参考訳): 重ラベルアウト! ラベル空間照明によるデータセット蒸留
- Authors: Ruonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang,
- Abstract要約: HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
- 参考スコア(独自算出の注目度): 69.67681224137561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation or condensation aims to condense a large-scale training dataset into a much smaller synthetic one such that the training performance of distilled and original sets on neural networks are similar. Although the number of training samples can be reduced substantially, current state-of-the-art methods heavily rely on enormous soft labels to achieve satisfactory performance. As a result, the required storage can be comparable even to original datasets, especially for large-scale ones. To solve this problem, instead of storing these heavy labels, we propose a novel label-lightening framework termed HeLlO aiming at effective image-to-label projectors, with which synthetic labels can be directly generated online from synthetic images. Specifically, to construct such projectors, we leverage prior knowledge in open-source foundation models, e.g., CLIP, and introduce a LoRA-like fine-tuning strategy to mitigate the gap between pre-trained and target distributions, so that original models for soft-label generation can be distilled into a group of low-rank matrices. Moreover, an effective image optimization method is proposed to further mitigate the potential error between the original and distilled label generators. Extensive experiments demonstrate that with only about 0.003% of the original storage required for a complete set of soft labels, we achieve comparable performance to current state-of-the-art dataset distillation methods on large-scale datasets. Our code will be available.
- Abstract(参考訳): データセットの蒸留や凝縮は、大規模なトレーニングデータセットをはるかに小さな合成データセットに凝縮することを目的としており、蒸留されたデータセットとニューラルネットワークのオリジナルセットのトレーニング性能が類似している。
トレーニングサンプルの数は大幅に削減できるが、現在の最先端の手法は、十分な性能を達成するために巨大なソフトラベルに大きく依存している。
結果として、必要なストレージは、特に大規模なデータセットに対して、オリジナルのデータセットに匹敵する可能性がある。
そこで本研究では,これらの重ラベルを格納する代わりに,合成画像から直接オンラインに合成ラベルを生成可能な,効果的な画像-ラベルプロジェクタを目的とした,HeLlOと呼ばれる新しいラベルライティングフレームワークを提案する。
具体的には、これらのプロジェクタを構築するために、オープンソースの基盤モデルであるCLIPの事前知識を活用し、事前学習された分布と対象分布のギャップを軽減するために、LoRAのような微調整戦略を導入し、ソフトラベル生成のオリジナルモデルを低ランク行列群に蒸留することができる。
さらに,元のラベル生成装置と蒸留したラベル生成装置の潜在的な誤差を軽減するために,効率的な画像最適化手法を提案する。
ソフトラベルの完全なセットに必要な元のストレージの約0.003%しか必要とせず、大規模データセット上での現在の最先端のデータセット蒸留法と同等のパフォーマンスを達成できることを示した。
私たちのコードは利用可能です。
関連論文リスト
- Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。
我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。
我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:11:40Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - Semi-weakly Supervised Contrastive Representation Learning for Retinal
Fundus Images [0.2538209532048867]
本稿では,半弱化アノテーションを用いた表現学習のための,半弱化教師付きコントラスト学習フレームワークを提案する。
SWCLの移動学習性能を7つの公立網膜眼底データセットで実証的に検証した。
論文 参考訳(メタデータ) (2021-08-04T15:50:09Z) - Flexible Dataset Distillation: Learn Labels Instead of Images [44.73351338165214]
我々の新しいアルゴリズムでラベルを蒸留すると、以前の画像に基づく蒸留よりも良い結果が得られる。
従来のイメージベースによるデータセット蒸留法よりも効果的であることを示す。
論文 参考訳(メタデータ) (2020-06-15T17:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。