論文の概要: Soft Label Pruning and Quantization for Large-Scale Dataset Distillation
- arxiv url: http://arxiv.org/abs/2604.18135v1
- Date: Mon, 20 Apr 2026 12:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.8453
- Title: Soft Label Pruning and Quantization for Large-Scale Dataset Distillation
- Title(参考訳): 大規模データセット蒸留のためのソフトラベルプルーニングと量子化
- Authors: Xiao Lingao, Yang He,
- Abstract要約: 大規模なデータセットの蒸留では、ImageNet-1Kで30-40倍、ImageNet-21Kで200倍の大きさの補助ソフトラベルを保存する必要がある。
大規模蒸留(LPQLD)のためのラベル抽出と量子化を提案する。
提案手法により,ImageNet-1Kでは78倍,ImageNet-21Kでは500倍,精度は7.2%,精度は2.8%向上した。
- 参考スコア(独自算出の注目度): 5.591710487538282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale dataset distillation requires storing auxiliary soft labels that can be 30-40x larger on ImageNet-1K and 200x larger on ImageNet-21K than the condensed images, undermining the goal of dataset compression. We identify two fundamental issues necessitating such extensive labels: (1) insufficient image diversity, where high within-class similarity in synthetic images requires extensive augmentation, and (2) insufficient supervision diversity, where limited variety in supervisory signals during training leads to performance degradation at high compression rates. To address these challenges, we propose Label Pruning and Quantization for Large-scale Distillation (LPQLD). We enhance image diversity via class-wise batching and batch-normalization supervision during synthesis. For supervision diversity, we introduce Label Pruning with Dynamic Knowledge Reuse to improve label-per-augmentation diversity, and Label Quantization with Calibrated Student-Teacher Alignment to improve augmentation-per-image diversity. Our approach reduces soft label storage by 78x on ImageNet-1K and 500x on ImageNet-21K while improving accuracy by up to 7.2% and 2.8%, respectively. Extensive experiments validate the superiority of LPQLD across different network architectures and dataset distillation methods. Code is available at https://github.com/he-y/soft-label-pruning-quantization-for-dataset-distillation.
- Abstract(参考訳): 大規模なデータセット蒸留では、ImageNet-1Kで30-40倍、ImageNet-21Kで200倍のサイズの補助ソフトラベルを保存する必要があるため、データセット圧縮の目標が損なわれる。
本研究では,(1)画像の多様性の欠如,(2)画像の内層的類似性の向上,(2)教師の多様性の欠如,(2)高い圧縮速度で性能の低下につながること,の2つの基本的な課題を同定する。
これらの課題に対処するために,大規模蒸留 (LPQLD) のためのラベルプルーニングと量子化を提案する。
我々は,合成中のクラスワイドバッチ処理とバッチ正規化監視により,画像の多様性を向上させる。
教師の多様性向上のために,動的知識再利用によるラベル・プルーニングを導入し,ラベル・パー・エンタテインメントの多様性向上のための校正学生・教師アライメントによるラベル・量子化を導入している。
提案手法により,ImageNet-1Kでは78倍,ImageNet-21Kでは500倍,精度は7.2%,精度は2.8%向上した。
大規模実験により、異なるネットワークアーキテクチャおよびデータセット蒸留法におけるLPQLDの優位性が検証された。
コードはhttps://github.com/he-y/soft-label-pruning-quantization-for-dataset-distillationで入手できる。
関連論文リスト
- Vector-Quantized Soft Label Compression for Dataset Distillation [23.924270023738487]
提案手法は, 試料および軟質ラベルの保存要求を定量化するための, データセット蒸留フレームワーク間でのビット要求の厳密な分析である。
そこで本研究では, ソフトラベルを圧縮するベクトル量子化オートエンコーダを導入し, 蒸留データの有効性を保ちながら, かなりの圧縮を実現した。
論文 参考訳(メタデータ) (2026-03-04T07:41:10Z) - Hard Labels In! Rethinking the Role of Hard Labels in Mitigating Local Semantic Drift [34.88652783901701]
画像あたりの作物数に制限がある場合、ソフトラベルは局所的なセマンティックドリフトを起こしやすいことを示す。
そこで我々は,ハードラベルを中間補正信号として活用する新たな訓練パラダイムであるHard Label for Alleviating Local Semantic Drift (HALD)を提案する。
本研究は, 補足ツールとしての硬質ラベルの重要性を再確立し, ソフトラベルを主体としたトレーニングにおける硬質ラベルの役割を再考することを目的とする。
論文 参考訳(メタデータ) (2025-12-17T17:54:20Z) - Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。
我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。
我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:11:40Z) - Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation? [2.379669478864599]
ImageNet-condensationでは、補助ソフトラベルのストレージは、凝縮データセットのストレージを30倍以上上回る。
縮合されたデータセットのクラス内における高い類似性は、大規模ソフトラベルの使用を必要とすることを示す。
画像の多様性を改善する重要な利点は、単純なランダムプルーニングによってソフトラベル圧縮を実現することができることである。
論文 参考訳(メタデータ) (2024-10-21T11:49:10Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - Weakly Supervised Deep Hyperspherical Quantization for Image Retrieval [76.4407063566172]
Weakly-Supervised Deep Hyperspherical Quantization (WSDHQ)を提案する。
具体的には,1)単語の埋め込みを用いてタグを表現し,タグ相関グラフに基づく意味情報を強化する。
我々は、よく設計された融合層とテーラーメイドの損失関数を用いて、セマンティックス保存の埋め込みと超球上の量子化器を協調的に学習する。
論文 参考訳(メタデータ) (2024-04-07T15:48:33Z) - Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation [58.03255076119459]
視覚変換器(ViT)を利用した弱教師付き小ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を利用して分類とセグメンテーションの予測を行う。
Pascal-5iとCOCO-20iの実験は、様々な監視設定において大きなパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2023-07-07T06:16:43Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Semi-supervised Learning for Few-shot Image-to-Image Translation [89.48165936436183]
本稿では,SEMITと呼ばれる画像翻訳のための半教師付き手法を提案する。
提案手法は,ソースラベルの10%以下を用いて,4つの異なるデータセットに対して優れた結果を得る。
論文 参考訳(メタデータ) (2020-03-30T22:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。