論文の概要: Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation
- arxiv url: http://arxiv.org/abs/2503.18872v1
- Date: Mon, 24 Mar 2025 16:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:26.024970
- Title: Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation
- Title(参考訳): 高IPCデータセット蒸留のための粗粒度選択法
- Authors: Yanda Chen, Gongwei Chen, Miao Zhang, Weili Guan, Liqiang Nie,
- Abstract要約: 効率的な高IPCデータセット蒸留のための新しいカリキュラム粗粒抽出法(CCFS)を提案する。
CCFSは、各カリキュラムの現在の合成データセットに基づいて、適切な実データを選択するために粗い戦略を採用している。
- 参考スコア(独自算出の注目度): 67.34754791044242
- License:
- Abstract: Dataset distillation (DD) excels in synthesizing a small number of images per class (IPC) but struggles to maintain its effectiveness in high-IPC settings. Recent works on dataset distillation demonstrate that combining distilled and real data can mitigate the effectiveness decay. However, our analysis of the combination paradigm reveals that the current one-shot and independent selection mechanism induces an incompatibility issue between distilled and real images. To address this issue, we introduce a novel curriculum coarse-to-fine selection (CCFS) method for efficient high-IPC dataset distillation. CCFS employs a curriculum selection framework for real data selection, where we leverage a coarse-to-fine strategy to select appropriate real data based on the current synthetic dataset in each curriculum. Extensive experiments validate CCFS, surpassing the state-of-the-art by +6.6\% on CIFAR-10, +5.8\% on CIFAR-100, and +3.4\% on Tiny-ImageNet under high-IPC settings. Notably, CCFS achieves 60.2\% test accuracy on ResNet-18 with a 20\% compression ratio of Tiny-ImageNet, closely matching full-dataset training with only 0.3\% degradation. Code: https://github.com/CYDaaa30/CCFS.
- Abstract(参考訳): データセット蒸留(DD)は、クラス毎の少数の画像(IPC)の合成に優れるが、高いIPC設定においてその有効性を維持するのに苦労する。
データセット蒸留に関する最近の研究は、蒸留された実データと実データを組み合わせることで、効率の低下を軽減できることを実証している。
しかし, この組み合わせのパラダイムを解析した結果, 現在の単発選択機構と独立選択機構は, 蒸留画像と実画像の相容れない問題を生じさせることがわかった。
この問題に対処するために,高速IPCデータセット蒸留のための新しいカリキュラム粗い選別法(CCFS)を導入する。
CCFSは、実データ選択のためのカリキュラム選択フレームワークを採用しており、粗大な戦略を利用して、各カリキュラムにおける現在の合成データセットに基づいて、適切な実データを選択する。
CIFAR-10では+6.6\%、CIFAR-100では+5.8\%、Tiny-ImageNetでは+3.4\%である。
特に、CCFSは、Tiny-ImageNetの20倍の圧縮比でResNet-18で60.2倍の精度でテストし、0.3倍の劣化しか持たないフルデータセットトレーニングと密接に一致している。
コード:https://github.com/CYDaaa30/CCFS。
関連論文リスト
- Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。
我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。
我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:11:40Z) - Low-Rank Similarity Mining for Multimodal Dataset Distillation [50.45577048854653]
マルチモーダルデータセット蒸留におけるローランド類似性マイニング(LoRS)を提案する。
LoRSは、画像とテキストのペアと基底真理類似性行列を蒸留し、低ランクの分解を効率とスケーラビリティに活用する。
論文 参考訳(メタデータ) (2024-06-06T07:05:20Z) - SelMatch: Effectively Scaling Up Dataset Distillation via Selection-Based Initialization and Partial Updates by Trajectory Matching [10.696635172502141]
IPCで効果的にスケールする新しい蒸留法であるSelMatchを紹介する。
CIFAR-10/100 と TinyImageNet でテストすると、SelMatch は選択のみと蒸留のみの手法で常に性能が向上する。
論文 参考訳(メタデータ) (2024-05-28T06:54:04Z) - Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data [40.37396692278567]
我々は、効率的なゼロショット分類のための画像エンコーダの小さな変種を訓練することに重点を置いている。
合成データの使用は、より大きな教師の蒸留表現において有望であることが示され、強い数発のプローブ性能と線形プローブ性能が得られた。
対照的な損失を使用する場合、真のゼロショット設定では、このアプローチが驚くほど失敗することがわかった。
論文 参考訳(メタデータ) (2024-04-25T14:24:41Z) - Distilling Datasets Into Less Than One Image [39.08927346274156]
データセットの蒸留の境界を押し、データセットをクラスごとの画像以下に圧縮する。
本手法は, CIFAR-10, CIFAR-100, CUB200に対して, 0.3画像/クラスで新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T17:59:49Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - CUDA: Convolution-based Unlearnable Datasets [77.70422525613084]
現代のディープラーニングモデルの大規模なトレーニングは、Web上の公開データに大きく依存している。
最近の研究は、小さくて特殊なノイズを加えることによって、ディープラーニングモデルのためのデータを作ることを目的としている。
これらの手法は、敵の訓練(AT)に対して脆弱であり、または/または計算的に重い。
論文 参考訳(メタデータ) (2023-03-07T22:57:23Z) - Dataset Distillation with Infinitely Wide Convolutional Networks [18.837952916998947]
分散カーネルをベースとしたメタラーニングフレームワークを用いて,データセット蒸留の最先端結果を実現する。
CIFAR-10画像分類タスクでは64%以上のテスト精度が得られた。
我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。
論文 参考訳(メタデータ) (2021-07-27T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。