論文の概要: Multisize Dataset Condensation
- arxiv url: http://arxiv.org/abs/2403.06075v2
- Date: Sun, 14 Apr 2024 09:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 20:21:55.043601
- Title: Multisize Dataset Condensation
- Title(参考訳): マルチサイズデータセットの凝縮
- Authors: Yang He, Lingao Xiao, Joey Tianyi Zhou, Ivor Tsang,
- Abstract要約: マルチサイズデータセットの凝縮により、オンデバイスシナリオでのトレーニング効率が向上する。
本稿では,N縮合過程を1つの縮合過程に圧縮し,MDC(Multisize dataset Condensation)を提案する。
提案手法は,1) 余分な凝縮処理は不要,2) 凝縮画像の再利用による保存要件の低減など,いくつかの利点がある。
- 参考スコア(独自算出の注目度): 34.14939894093381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While dataset condensation effectively enhances training efficiency, its application in on-device scenarios brings unique challenges. 1) Due to the fluctuating computational resources of these devices, there's a demand for a flexible dataset size that diverges from a predefined size. 2) The limited computational power on devices often prevents additional condensation operations. These two challenges connect to the "subset degradation problem" in traditional dataset condensation: a subset from a larger condensed dataset is often unrepresentative compared to directly condensing the whole dataset to that smaller size. In this paper, we propose Multisize Dataset Condensation (MDC) by compressing N condensation processes into a single condensation process to obtain datasets with multiple sizes. Specifically, we introduce an "adaptive subset loss" on top of the basic condensation loss to mitigate the "subset degradation problem". Our MDC method offers several benefits: 1) No additional condensation process is required; 2) reduced storage requirement by reusing condensed images. Experiments validate our findings on networks including ConvNet, ResNet and DenseNet, and datasets including SVHN, CIFAR-10, CIFAR-100 and ImageNet. For example, we achieved 5.22%-6.40% average accuracy gains on condensing CIFAR-10 to ten images per class. Code is available at: https://github.com/he-y/Multisize-Dataset-Condensation.
- Abstract(参考訳): データセットの凝縮はトレーニング効率を効果的に向上させるが、デバイス上のシナリオにおけるその応用にはユニークな課題が伴う。
1) これらのデバイスの変動する計算資源のため、予め定義されたサイズから分岐するフレキシブルなデータセットサイズが要求される。
2) デバイス上での計算能力の制限により, 余分な凝縮操作が防止されることが多い。
これらの2つの課題は、従来のデータセットの凝縮における「サブセット劣化問題」と結びついている。
本論文では,Nの凝縮過程を1つの凝縮過程に圧縮し,複数のサイズのデータセットを取得することで,MDC(Multisize Dataset Condensation)を提案する。
具体的には、「サブセット劣化問題」を軽減するため、基本凝縮損失の上に「適応部分集合損失」を導入する。
我々のMDC法にはいくつかの利点がある。
1)追加の凝縮処理は不要である。
2) 凝縮画像の再利用による保存要件の低減。
実験では、ConvNet、ResNet、DenseNet、SVHN、CIFAR-10、CIFAR-100、ImageNetなどのデータセットについて実験を行った。
例えば、CIFAR-10を1クラス10枚に縮合すると、平均精度が5.22%-6.40%向上した。
コードは、https://github.com/he-y/Multisize-Dataset-Condensationで入手できる。
関連論文リスト
- Elucidating the Design Space of Dataset Condensation [23.545641118984115]
データ中心学習の概念であるデータセット凝縮は、オリジナルのデータセットから合成バージョンに重要な属性を効率的に転送する。
本稿では,ソフトカテゴリ対応マッチングの実装のような,具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。
我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。
論文 参考訳(メタデータ) (2024-04-21T18:19:27Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - You Only Condense Once: Two Rules for Pruning Condensed Datasets [41.92794134275854]
You Only Condense Once (YOCO)は、2つの恥ずかしいほど単純なデータセットプルーニングルールで、より小さなコンデンスデータセットを生成する。
実験では、ConvNet、ResNet、DenseNetなどのネットワーク上で、我々の発見を検証した。
論文 参考訳(メタデータ) (2023-10-21T14:05:58Z) - Dataset Condensation via Generative Model [71.89427409059472]
本稿では,大規模データセットを別のフォーマット,生成モデルに変換することを提案する。
このような新しいフォーマットは、クラス数や画像解像度が増加するにつれて生成モデルのサイズが比較的安定であるため、大きなデータセットの凝縮を可能にする。
凝縮試料の関係をモデル化するために,クラス内損失とクラス間損失を提案する。
論文 参考訳(メタデータ) (2023-09-14T13:17:02Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - CFNet: Cascade and Fused Cost Volume for Robust Stereo Matching [27.313740022587442]
ステレオマッチングネットワークのロバスト性を改善するために,カスケードとフューズドのコストボリュームに基づくネットワークCFNetを提案する。
分散に基づく不確実性推定を用いて、次の段階の差分探索空間を適応的に調整する。
提案手法は、最先端の総合性能を達成し、Robust Vision Challenge 2020のステレオタスクで1位を獲得します。
論文 参考訳(メタデータ) (2021-04-09T11:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。