論文の概要: Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images
- arxiv url: http://arxiv.org/abs/2502.06434v1
- Date: Mon, 10 Feb 2025 13:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:08.328680
- Title: Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images
- Title(参考訳): 大規模データセット圧縮の再考:ラベルから画像へ焦点を移す
- Authors: Lingao Xiao, Songhua Liu, Yang He, Xinchao Wang,
- Abstract要約: 蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。
我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。
我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.42768987736088
- License:
- Abstract: Dataset distillation and dataset pruning are two prominent techniques for compressing datasets to improve computational and storage efficiency. Despite their overlapping objectives, these approaches are rarely compared directly. Even within each field, the evaluation protocols are inconsistent across various methods, which complicates fair comparisons and hinders reproducibility. Considering these limitations, we introduce in this paper a benchmark that equitably evaluates methodologies across both distillation and pruning literatures. Notably, our benchmark reveals that in the mainstream dataset distillation setting for large-scale datasets, which heavily rely on soft labels from pre-trained models, even randomly selected subsets can achieve surprisingly competitive performance. This finding suggests that an overemphasis on soft labels may be diverting attention from the intrinsic value of the image data, while also imposing additional burdens in terms of generation, storage, and application. To address these issues, we propose a new framework for dataset compression, termed Prune, Combine, and Augment (PCA), which focuses on leveraging image data exclusively, relies solely on hard labels for evaluation, and achieves state-of-the-art performance in this setup. By shifting the emphasis back to the images, our benchmark and PCA framework pave the way for more balanced and accessible techniques in dataset compression research. Our code is available at: https://github.com/ArmandXiao/Rethinking-Dataset-Compression
- Abstract(参考訳): データセットの蒸留とデータセットのプルーニングは、データセットを圧縮して計算と記憶効率を向上させる2つの重要なテクニックである。
重複する目的にもかかわらず、これらのアプローチを直接比較することは滅多にない。
各分野において、評価プロトコルは様々な手法で不整合であり、公正な比較を複雑にし再現性を阻害する。
これらの制約を考慮すると,蒸留法と刈り取り法の両方の方法論を公平に評価するベンチマークを本論文で紹介する。
特に、我々のベンチマークでは、事前訓練されたモデルのソフトラベルに大きく依存する大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ、驚くほどの競争性能を達成できることが示されています。
この結果は、ソフトラベルに対する過剰な強調は、画像データの本質的な価値から注意を逸脱し、生成、記憶、応用の面でさらなる負担を伴っていることを示唆している。
これらの課題に対処するため,画像データのみを活用することに焦点を当てたデータセット圧縮フレームワークであるPrune, Combine, Augment (PCA)を提案する。
画像に重点を移すことで、私たちのベンチマークとPCAフレームワークは、データセット圧縮研究において、よりバランスのとれた、アクセスしやすいテクニックの道を開いたのです。
私たちのコードは、https://github.com/ArmandXiao/Rethinking-Dataset-Compressionで利用可能です。
関連論文リスト
- ODDN: Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks [51.03118447290247]
オープンワールドデータアグリゲーション(ODA)と圧縮・ディスカード勾配補正(CGC)を組み合わせたオープンワールドディープフェイク検出ネットワーク(ODDN)を提案する。
細粒度分析と粗粒度分析の両方により,ODAは圧縮試料と原試料の相関関係を効果的に集約する。
CGCは、オンラインソーシャルネットワーク(OSN)における多種多様な圧縮方法のパフォーマンス向上のために、圧縮・ディスカード勾配補正を組み込んだ。
論文 参考訳(メタデータ) (2024-10-24T12:32:22Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - DD-RobustBench: An Adversarial Robustness Benchmark for Dataset Distillation [25.754877176280708]
我々は,蒸留したデータセットの対角的堅牢性を統一的に評価する上で,これまでで最も広範囲なベンチマークを導入する。
TESLAやSRe2Lといった最新の進歩を取り入れることで,これまでの取り組みを大きく拡張する。
また, 蒸留したデータを元のデータセットのトレーニングバッチに組み込むことで, 堅牢性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-20T06:00:53Z) - Distributional Dataset Distillation with Subtask Decomposition [18.288856447840303]
本稿では,TinyImageNet と ImageNet-1K のデータセットに対して,最新の結果が得られることを示す。
具体的には、クラス毎に2つのイメージのストレージ予算の下で、ImageNet-1Kで6.9%の先行技術より優れています。
論文 参考訳(メタデータ) (2024-03-01T21:49:34Z) - Soft labelling for semantic segmentation: Bringing coherence to label
down-sampling [1.797129499170058]
セマンティックセグメンテーションでは、リソースが限られているため、ダウンサンプリングが一般的に行われる。
本稿では,ソフトラベルによるダウンサンプリングのための新しいフレームワークを提案する。
この提案は、表現されていないセマンティッククラスに対する信頼性の高いアノテーションも生成する。
論文 参考訳(メタデータ) (2023-02-27T17:02:30Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - A Joint Pixel and Feature Alignment Framework for Cross-dataset
Palmprint Recognition [25.43285951112965]
そこで本研究では,マルチデータセット・パームプリント認識シナリオのための新しい統合画素・特徴アライメント(JPFA)フレームワークを提案する。
2つのステージアライメントを適用して、ソースおよびターゲットデータセットの適応的な特徴を得る。
ベースラインと比較して、クロスデータセット識別の精度は最大28.10%向上し、クロスデータセット検証のEER(Equal Error Rate)は最大4.69%削減される。
論文 参考訳(メタデータ) (2020-05-25T11:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。