論文の概要: SCORE: Soft Label Compression-Centric Dataset Condensation via Coding Rate Optimization
- arxiv url: http://arxiv.org/abs/2503.13935v1
- Date: Tue, 18 Mar 2025 06:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:06.995120
- Title: SCORE: Soft Label Compression-Centric Dataset Condensation via Coding Rate Optimization
- Title(参考訳): SCORE:符号化速度最適化によるソフトラベル圧縮中心データセット凝縮
- Authors: Bowen Yuan, Yuxia Fu, Zijian Wang, Yadan Luo, Zi Huang,
- Abstract要約: 本稿では,textbfSoftラベル圧縮中心のデータセット凝縮フレームワークを提案する。
凝縮したデータの情報性、識別性、圧縮性のバランスをとる。
ImageNet-1KやTiny-ImageNetといった大規模なデータセットの実験では、SCOREが既存のメソッドよりも優れていることが実証されている。
- 参考スコア(独自算出の注目度): 29.93981107658258
- License:
- Abstract: Dataset Condensation (DC) aims to obtain a condensed dataset that allows models trained on the condensed dataset to achieve performance comparable to those trained on the full dataset. Recent DC approaches increasingly focus on encoding knowledge into realistic images with soft labeling, for their scalability to ImageNet-scale datasets and strong capability of cross-domain generalization. However, this strong performance comes at a substantial storage cost which could significantly exceed the storage cost of the original dataset. We argue that the three key properties to alleviate this performance-storage dilemma are informativeness, discriminativeness, and compressibility of the condensed data. Towards this end, this paper proposes a \textbf{S}oft label compression-centric dataset condensation framework using \textbf{CO}ding \textbf{R}at\textbf{E} (SCORE). SCORE formulates dataset condensation as a min-max optimization problem, which aims to balance the three key properties from an information-theoretic perspective. In particular, we theoretically demonstrate that our coding rate-inspired objective function is submodular, and its optimization naturally enforces low-rank structure in the soft label set corresponding to each condensed data. Extensive experiments on large-scale datasets, including ImageNet-1K and Tiny-ImageNet, demonstrate that SCORE outperforms existing methods in most cases. Even with 30$\times$ compression of soft labels, performance decreases by only 5.5\% and 2.7\% for ImageNet-1K with IPC 10 and 50, respectively. Code will be released upon paper acceptance.
- Abstract(参考訳): Dataset Condensation(DC)は、凝縮データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成するための、凝縮データセットを取得することを目的としている。
最近のDCアプローチでは、ImageNetスケールデータセットへのスケーラビリティとクロスドメインの一般化の強力な能力のために、知識をソフトラベリングでリアルなイメージにエンコードすることに注力している。
しかし、この強力なパフォーマンスは、元のデータセットのストレージコストを大幅に上回る、相当なストレージコストを伴います。
この性能保存ジレンマを緩和する3つの重要な性質は、凝縮されたデータの情報性、識別性、圧縮性である。
そこで本研究では, textbf{CO}ding \textbf{R}at\textbf{E} (SCORE) を用いた, ラベル圧縮中心のデータセット凝縮フレームワークを提案する。
SCOREは、情報理論の観点から3つの重要な特性のバランスをとることを目的とした、min-max最適化問題としてデータセットの凝縮を定式化している。
特に,符号化速度に着想を得た目的関数が部分モジュラーであることが理論的に証明され,その最適化によって各凝縮データに対応するソフトラベル集合の低ランク構造が自然に強制される。
ImageNet-1KやTiny-ImageNetといった大規模なデータセットに対する大規模な実験は、SCOREが既存の手法よりも優れていることを実証している。
30$\times$圧縮しても、IPC 10と50のImageNet-1Kではパフォーマンスは5.5\%と2.7\%しか低下しない。
コードは受理後に公開される。
関連論文リスト
- Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。
我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。
我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:11:40Z) - Decomposed Distribution Matching in Dataset Condensation [16.40653529334528]
最近の研究は、コストのかかる二段階最適化を回避した分布整合問題としてDCを定式化している。
本稿では,オリジナルデータとコンデンスデータのスタイル情報とを一致させる,シンプルで効果的な手法を提案する。
様々なサイズと解像度のデータセットを用いた実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-12-06T03:20:36Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - Elucidating the Design Space of Dataset Condensation [23.545641118984115]
データ中心学習の概念であるデータセット凝縮は、オリジナルのデータセットから合成バージョンに重要な属性を効率的に転送する。
本稿では,ソフトカテゴリ対応マッチングの実装のような,具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。
我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。
論文 参考訳(メタデータ) (2024-04-21T18:19:27Z) - You Only Condense Once: Two Rules for Pruning Condensed Datasets [41.92794134275854]
You Only Condense Once (YOCO)は、2つの恥ずかしいほど単純なデータセットプルーニングルールで、より小さなコンデンスデータセットを生成する。
実験では、ConvNet、ResNet、DenseNetなどのネットワーク上で、我々の発見を検証した。
論文 参考訳(メタデータ) (2023-10-21T14:05:58Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Leveraging Hierarchical Feature Sharing for Efficient Dataset Condensation [38.59750970617013]
階層型メモリネットワーク(HMN)という新しいデータパラメータ化アーキテクチャを提案する。
HMNは、凝縮したデータを3層構造に格納し、データセットレベル、クラスレベル、インスタンスレベルの特徴を表現する。
5つの公開データセット上でHMNを評価し,提案手法がすべてのベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-11T14:02:11Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。