論文の概要: Vector-Quantized Soft Label Compression for Dataset Distillation
- arxiv url: http://arxiv.org/abs/2603.03808v1
- Date: Wed, 04 Mar 2026 07:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.224139
- Title: Vector-Quantized Soft Label Compression for Dataset Distillation
- Title(参考訳): データセット蒸留のためのベクトル量子化ソフトラベル圧縮
- Authors: Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash, Soheil Kolouri,
- Abstract要約: 提案手法は, 試料および軟質ラベルの保存要求を定量化するための, データセット蒸留フレームワーク間でのビット要求の厳密な分析である。
そこで本研究では, ソフトラベルを圧縮するベクトル量子化オートエンコーダを導入し, 蒸留データの有効性を保ちながら, かなりの圧縮を実現した。
- 参考スコア(独自算出の注目度): 23.924270023738487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation is an emerging technique for reducing the computational and storage costs of training machine learning models by synthesizing a small, informative subset of data that captures the essential characteristics of a much larger dataset. Recent methods pair synthetic samples and their augmentations with soft labels from a teacher model, enabling student models to generalize effectively despite the small size of the distilled dataset. While soft labels are critical for effective distillation, the storage and communication overhead they incur, especially when accounting for augmentations, is often overlooked. In practice, each distilled sample is associated with multiple soft labels, making them the dominant contributor to storage costs, particularly in large-class settings such as ImageNet-1K. In this paper, we present a rigorous analysis of bit requirements across dataset distillation frameworks, quantifying the storage demands of both distilled samples and their soft labels. To address the overhead, we introduce a vector-quantized autoencoder (VQAE) for compressing soft labels, achieving substantial compression while preserving the effectiveness of the distilled data. We validate our method on both vision and language distillation benchmarks. On ImageNet-1K, our proposed VQAE achieves 30--40x additional compression over RDED, LPLD, SRE2L, and CDA baselines while retaining over $90\%$ of their original performance.
- Abstract(参考訳): データセットの蒸留は、より大規模なデータセットの本質的な特徴を捉えた、小さな、情報的なデータのサブセットを合成することによって、機械学習モデルをトレーニングする際の計算と記憶のコストを削減する新しい技術である。
近年の合成サンプルと教師モデルからのソフトラベルとの組合せにより, 蒸留したデータセットが小さいにもかかわらず, 学生モデルは効果的に一般化できる。
ソフトラベルは効果的な蒸留には重要であるが、特に増量を考慮した場合の保存と通信のオーバーヘッドは見過ごされがちである。
実際には、それぞれの蒸留されたサンプルは複数のソフトラベルと関連付けられており、特にImageNet-1Kのような大規模な設定において、ストレージコストに大きく貢献している。
本稿では, データセット蒸留フレームワーク間のビット要求の厳密な分析を行い, 蒸留試料とそのソフトラベルの保存要求を定量化する。
そこで本研究では, ソフトラベルを圧縮するベクトル量子化オートエンコーダ (VQAE) を導入し, 蒸留データの有効性を保ちながら, かなりの圧縮を実現した。
視覚と言語蒸留のベンチマークにおいて,本手法の有効性を検証した。
ImageNet-1Kでは、提案したVQAEはRDED、LPLD、SRE2L、CDAのベースラインを30~40倍圧縮し、元のパフォーマンスの90%以上を保っている。
関連論文リスト
- Rectifying Soft-Label Entangled Bias in Long-Tailed Dataset Distillation [39.47633542394261]
長期データセット蒸留におけるソフトラベルの重要性を強調した。
蒸留データセットで学習したモデルに対して,不均衡を考慮した一般化を導出する。
次に, 蒸留モデルと蒸留画像から得られた2つのソフトラベルバイアス源を同定した。
本稿では,Adaptive Soft-label Alignmentモジュールとして,絡み合ったバイアスを校正するADSAを提案する。
論文 参考訳(メタデータ) (2025-11-22T04:37:27Z) - Dataset Distillation as Data Compression: A Rate-Utility Perspective [31.050187201929557]
そこで本研究では,データセット蒸留における共同レート・ユーティリティ最適化手法を提案する。
超軽量ネットワークでデコードされた最適潜在符号として合成サンプルをパラメータ化する。
我々は、量子化潜水剤のシャノンエントロピーをレート尺度として推定し、既存の蒸留損失を実用指標としてプラグし、ラグランジュ乗算器で引き離す。
論文 参考訳(メタデータ) (2025-07-23T05:40:52Z) - Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。
我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。
我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:11:40Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - GIFT: Unlocking Full Potential of Labels in Distilled Dataset at Near-zero Cost [7.05277588099645]
データセット蒸留の最近の進歩は、事前訓練された教師モデルによって生成されたソフトラベルを使うことによる重要な利点を示している。
ラベルのフル活用を強調することによって,新しい視点を導入する。
本稿では,ソフトラベルの精細化とコサイン類似度に基づく損失関数を含むGIFTを紹介する。
論文 参考訳(メタデータ) (2024-05-23T16:02:30Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。