Fugu-MT 論文翻訳(概要): Dataset Condensation via Efficient Synthetic-Data Parameterization

論文の概要: Dataset Condensation via Efficient Synthetic-Data Parameterization

arxiv url: http://arxiv.org/abs/2205.14959v2
Date: Thu, 2 Jun 2022 05:45:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-03 11:21:44.830405
Title: Dataset Condensation via Efficient Synthetic-Data Parameterization
Title（参考訳）: 効率的な合成データパラメータ化によるデータセットの凝縮
Authors: Jang-Hyun Kim, Jinuk Kim, Seong Joon Oh, Sangdoo Yun, Hwanjun Song, Joonhyun Jeong, Jung-Woo Ha, Hyun Oh Song
Abstract要約: 大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
参考スコア（独自算出の注目度）: 40.56817483607132
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The great success of machine learning with massive amounts of data comes at a price of huge computation costs and storage for training and tuning. Recent studies on dataset condensation attempt to reduce the dependence on such massive data by synthesizing a compact training dataset. However, the existing approaches have fundamental limitations in optimization due to the limited representability of synthetic datasets without considering any data regularity characteristics. To this end, we propose a novel condensation framework that generates multiple synthetic data with a limited storage budget via efficient parameterization considering data regularity. We further analyze the shortcomings of the existing gradient matching-based condensation methods and develop an effective optimization technique for improving the condensation of training data information. We propose a unified algorithm that drastically improves the quality of condensed data against the current state-of-the-art on CIFAR-10, ImageNet, and Speech Commands.
Abstract（参考訳）: 大量のデータを使った機械学習の素晴らしい成功は、膨大な計算コストとトレーニングとチューニングのためのストレージのコストによってもたらされます。データセット凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することによって、そのような大量のデータへの依存を減らす試みである。しかし、既存のアプローチは、データ規則性特性を考慮せず、合成データセットの表現可能性に制限があるため、最適化に根本的な制限がある。そこで本研究では,データ規則性を考慮した効率的なパラメータ化により,少ないストレージ予算で複数の合成データを生成する新しい凝縮フレームワークを提案する。さらに,既存の勾配整合型凝縮法の欠点を解析し,学習データ情報の凝縮性を改善するための効果的な最適化手法を開発した。我々は,CIFAR-10, ImageNet, Speech Commandsにおける現在の最先端技術に対して,コンデンサデータの品質を大幅に向上させる統一アルゴリズムを提案する。

関連論文リスト

Enhancing Generalization via Sharpness-Aware Trajectory Matching for Dataset Condensation [37.77454972709646]
学習した合成データセットの一般化能力を高めるシャープネス認識軌道マッチング(SATM)を導入する。我々の手法は数学的に十分サポートされており、制御可能な計算オーバーヘッドとともに実装が容易である。
論文参考訳（メタデータ） (2025-02-03T22:30:06Z)
Going Beyond Feature Similarity: Effective Dataset distillation based on Class-aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文参考訳（メタデータ） (2024-12-13T08:10:47Z)
Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。本手法はGAN内の階層層を系統的に探索する。さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文参考訳（メタデータ） (2024-06-09T09:15:54Z)
CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting [22.473436770730657]
データセット凝縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと互換性を持って動作できることを保証することである。分類において、合成データは、全データセットで訓練されたモデルと合成データセットで訓練されたモデルが同じ入力に対して同一のラベルを生成する場合、よく蒸留されると考えられる。 TS予測において, 合成データ蒸留の有効性は, モデル間の距離によって決定される。
論文参考訳（メタデータ） (2024-06-04T09:18:20Z)
Calibrated Dataset Condensation for Faster Hyperparameter Search [23.790315967011345]
最先端のアプローチは、実データと合成データの間のモデル勾配のマッチングに依存する。本稿では,ハイパーパラメータ探索を対象とする異なる凝縮目標について考察する。
論文参考訳（メタデータ） (2024-05-27T17:55:01Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Towards Efficient Deep Hashing Retrieval: Condensing Your Data via Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T13:23:55Z)
Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文参考訳（メタデータ） (2022-11-20T15:49:11Z)
DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文参考訳（メタデータ） (2022-07-20T03:54:05Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。