論文の概要: You Only Condense Once: Two Rules for Pruning Condensed Datasets
- arxiv url: http://arxiv.org/abs/2310.14019v1
- Date: Sat, 21 Oct 2023 14:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 03:57:37.590540
- Title: You Only Condense Once: Two Rules for Pruning Condensed Datasets
- Title(参考訳): 1回だけ凝縮する: 凝縮データセットを刈り取るための2つのルール
- Authors: Yang He, Lingao Xiao, Joey Tianyi Zhou
- Abstract要約: You Only Condense Once (YOCO)は、2つの恥ずかしいほど単純なデータセットプルーニングルールで、より小さなコンデンスデータセットを生成する。
実験では、ConvNet、ResNet、DenseNetなどのネットワーク上で、我々の発見を検証した。
- 参考スコア(独自算出の注目度): 41.92794134275854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset condensation is a crucial tool for enhancing training efficiency by
reducing the size of the training dataset, particularly in on-device scenarios.
However, these scenarios have two significant challenges: 1) the varying
computational resources available on the devices require a dataset size
different from the pre-defined condensed dataset, and 2) the limited
computational resources often preclude the possibility of conducting additional
condensation processes. We introduce You Only Condense Once (YOCO) to overcome
these limitations. On top of one condensed dataset, YOCO produces smaller
condensed datasets with two embarrassingly simple dataset pruning rules: Low
LBPE Score and Balanced Construction. YOCO offers two key advantages: 1) it can
flexibly resize the dataset to fit varying computational constraints, and 2) it
eliminates the need for extra condensation processes, which can be
computationally prohibitive. Experiments validate our findings on networks
including ConvNet, ResNet and DenseNet, and datasets including CIFAR-10,
CIFAR-100 and ImageNet. For example, our YOCO surpassed various dataset
condensation and dataset pruning methods on CIFAR-10 with ten Images Per Class
(IPC), achieving 6.98-8.89% and 6.31-23.92% accuracy gains, respectively. The
code is available at: https://github.com/he-y/you-only-condense-once.
- Abstract(参考訳): データセットの凝縮は、特にオンデバイスシナリオにおいて、トレーニングデータセットのサイズを小さくすることで、トレーニング効率を向上させる重要なツールである。
しかし、これらのシナリオには2つの大きな課題があります。
1)デバイス上で利用可能な様々な計算資源は、予め定義された凝縮データセットとは異なるデータセットサイズを必要とする。
2) 限られた計算資源は、しばしば追加の凝縮過程の実行を妨げている。
これらの制限を克服するために、You Only Condense Once (YOCO)を紹介します。
1つの凝縮データセットに加えて、YOCOは2つの恥ずかしい単純なデータセットプルーニングルールである低LBPEスコアとバランスドコンストラクションを備えた、より小さな縮合データセットを生成する。
YOCOには2つの大きな利点がある。
1)データセットを柔軟にリサイズして様々な計算制約に適合させることができる。
2) 計算的に禁止される余分な凝縮プロセスは不要である。
実験では、ConvNet、ResNet、DenseNet、CIFAR-10、CIFAR-100、ImageNetなどのデータセットについて実験を行った。
例えば、我々の YOCO は CIFAR-10 上で 10 Images Per Class (IPC) と 6.98-8.89% と 6.31-23.92% の精度向上を達成した。
コードはhttps://github.com/he-y/you-only-condense-once.com/で入手できる。
関連論文リスト
- Elucidating the Design Space of Dataset Condensation [23.545641118984115]
データ中心学習の概念であるデータセット凝縮は、オリジナルのデータセットから合成バージョンに重要な属性を効率的に転送する。
本稿では,ソフトカテゴリ対応マッチングの実装のような,具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。
我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。
論文 参考訳(メタデータ) (2024-04-21T18:19:27Z) - Multisize Dataset Condensation [34.14939894093381]
マルチサイズデータセットの凝縮により、オンデバイスシナリオでのトレーニング効率が向上する。
本稿では,N縮合過程を1つの縮合過程に圧縮し,MDC(Multisize dataset Condensation)を提案する。
提案手法は,1) 余分な凝縮処理は不要,2) 凝縮画像の再利用による保存要件の低減など,いくつかの利点がある。
論文 参考訳(メタデータ) (2024-03-10T03:43:02Z) - Dataset Condensation for Recommendation [29.239833773646975]
推奨に適した軽量凝縮フレームワーク(DConRec)を提案する。
我々は,確率論的アプローチによる個別のユーザとイテムのインタラクションをモデル化し,ユーザの潜在的な嗜好を凝縮したデータセットに組み込むために,事前拡張モジュールを設計する。
複数の実世界のデータセットに対する実験結果から,本フレームワークの有効性と有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T09:30:11Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。