論文の概要: Dataset Condensation via Efficient Synthetic-Data Parameterization
- arxiv url: http://arxiv.org/abs/2205.14959v2
- Date: Thu, 2 Jun 2022 05:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 11:21:44.830405
- Title: Dataset Condensation via Efficient Synthetic-Data Parameterization
- Title(参考訳): 効率的な合成データパラメータ化によるデータセットの凝縮
- Authors: Jang-Hyun Kim, Jinuk Kim, Seong Joon Oh, Sangdoo Yun, Hwanjun Song,
Joonhyun Jeong, Jung-Woo Ha, Hyun Oh Song
- Abstract要約: 大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.56817483607132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The great success of machine learning with massive amounts of data comes at a
price of huge computation costs and storage for training and tuning. Recent
studies on dataset condensation attempt to reduce the dependence on such
massive data by synthesizing a compact training dataset. However, the existing
approaches have fundamental limitations in optimization due to the limited
representability of synthetic datasets without considering any data regularity
characteristics. To this end, we propose a novel condensation framework that
generates multiple synthetic data with a limited storage budget via efficient
parameterization considering data regularity. We further analyze the
shortcomings of the existing gradient matching-based condensation methods and
develop an effective optimization technique for improving the condensation of
training data information. We propose a unified algorithm that drastically
improves the quality of condensed data against the current state-of-the-art on
CIFAR-10, ImageNet, and Speech Commands.
- Abstract(参考訳): 大量のデータを使った機械学習の素晴らしい成功は、膨大な計算コストとトレーニングとチューニングのためのストレージのコストによってもたらされます。
データセット凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することによって、そのような大量のデータへの依存を減らす試みである。
しかし、既存のアプローチは、データ規則性特性を考慮せず、合成データセットの表現可能性に制限があるため、最適化に根本的な制限がある。
そこで本研究では,データ規則性を考慮した効率的なパラメータ化により,少ないストレージ予算で複数の合成データを生成する新しい凝縮フレームワークを提案する。
さらに,既存の勾配整合型凝縮法の欠点を解析し,学習データ情報の凝縮性を改善するための効果的な最適化手法を開発した。
我々は,CIFAR-10, ImageNet, Speech Commandsにおける現在の最先端技術に対して,コンデンサデータの品質を大幅に向上させる統一アルゴリズムを提案する。
関連論文リスト
- Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Dataset Condensation with Distribution Matching [30.571335208276246]
データセットの凝縮は、元々の大きなトレーニングセットを、はるかに小さな学習された合成セットに置き換えることを目的としている。
トレーニングコストを大幅に削減する,単純かつ効果的なデータセット凝縮手法を提案する。
その効率により、我々はより現実的で大規模なデータセットに適用し、洗練されたニューラルアーキテクチャを持つ。
論文 参考訳(メタデータ) (2021-10-08T15:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。