論文の概要: Dataset Condensation via Efficient Synthetic-Data Parameterization
- arxiv url: http://arxiv.org/abs/2205.14959v2
- Date: Thu, 2 Jun 2022 05:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 11:21:44.830405
- Title: Dataset Condensation via Efficient Synthetic-Data Parameterization
- Title(参考訳): 効率的な合成データパラメータ化によるデータセットの凝縮
- Authors: Jang-Hyun Kim, Jinuk Kim, Seong Joon Oh, Sangdoo Yun, Hwanjun Song,
Joonhyun Jeong, Jung-Woo Ha, Hyun Oh Song
- Abstract要約: 大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.56817483607132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The great success of machine learning with massive amounts of data comes at a
price of huge computation costs and storage for training and tuning. Recent
studies on dataset condensation attempt to reduce the dependence on such
massive data by synthesizing a compact training dataset. However, the existing
approaches have fundamental limitations in optimization due to the limited
representability of synthetic datasets without considering any data regularity
characteristics. To this end, we propose a novel condensation framework that
generates multiple synthetic data with a limited storage budget via efficient
parameterization considering data regularity. We further analyze the
shortcomings of the existing gradient matching-based condensation methods and
develop an effective optimization technique for improving the condensation of
training data information. We propose a unified algorithm that drastically
improves the quality of condensed data against the current state-of-the-art on
CIFAR-10, ImageNet, and Speech Commands.
- Abstract(参考訳): 大量のデータを使った機械学習の素晴らしい成功は、膨大な計算コストとトレーニングとチューニングのためのストレージのコストによってもたらされます。
データセット凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することによって、そのような大量のデータへの依存を減らす試みである。
しかし、既存のアプローチは、データ規則性特性を考慮せず、合成データセットの表現可能性に制限があるため、最適化に根本的な制限がある。
そこで本研究では,データ規則性を考慮した効率的なパラメータ化により,少ないストレージ予算で複数の合成データを生成する新しい凝縮フレームワークを提案する。
さらに,既存の勾配整合型凝縮法の欠点を解析し,学習データ情報の凝縮性を改善するための効果的な最適化手法を開発した。
我々は,CIFAR-10, ImageNet, Speech Commandsにおける現在の最先端技術に対して,コンデンサデータの品質を大幅に向上させる統一アルゴリズムを提案する。
関連論文リスト
- Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting [22.473436770730657]
データセット凝縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと互換性を持って動作できることを保証することである。
分類において、合成データは、全データセットで訓練されたモデルと合成データセットで訓練されたモデルが同じ入力に対して同一のラベルを生成する場合、よく蒸留されると考えられる。
TS予測において, 合成データ蒸留の有効性は, モデル間の距離によって決定される。
論文 参考訳(メタデータ) (2024-06-04T09:18:20Z) - Calibrated Dataset Condensation for Faster Hyperparameter Search [23.790315967011345]
最先端のアプローチは、実データと合成データの間のモデル勾配のマッチングに依存する。
本稿では,ハイパーパラメータ探索を対象とする異なる凝縮目標について考察する。
論文 参考訳(メタデータ) (2024-05-27T17:55:01Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。