論文の概要: Dataset Distillation using Neural Feature Regression
- arxiv url: http://arxiv.org/abs/2206.00719v1
- Date: Wed, 1 Jun 2022 19:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:55:08.782486
- Title: Dataset Distillation using Neural Feature Regression
- Title(参考訳): ニューラル特徴回帰を用いたデータセット蒸留
- Authors: Yongchao Zhou, Ehsan Nezhadarya, Jimmy Ba
- Abstract要約: ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 32.53291298089172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation aims to learn a small synthetic dataset that preserves
most of the information from the original dataset. Dataset distillation can be
formulated as a bi-level meta-learning problem where the outer loop optimizes
the meta-dataset and the inner loop trains a model on the distilled data.
Meta-gradient computation is one of the key challenges in this formulation, as
differentiating through the inner loop learning procedure introduces
significant computation and memory costs. In this paper, we address these
challenges using neural Feature Regression with Pooling (FRePo), achieving the
state-of-the-art performance with an order of magnitude less memory requirement
and two orders of magnitude faster training than previous methods. The proposed
algorithm is analogous to truncated backpropagation through time with a pool of
models to alleviate various types of overfitting in dataset distillation. FRePo
significantly outperforms the previous methods on CIFAR100, Tiny ImageNet, and
ImageNet-1K. Furthermore, we show that high-quality distilled data can greatly
improve various downstream applications, such as continual learning and
membership inference defense.
- Abstract(参考訳): データセット蒸留は、元のデータセットからほとんどの情報を保存する小さな合成データセットを学ぶことを目的としている。
データセット蒸留は、外ループがメタデータセットを最適化し、内ループが蒸留データ上でモデルを訓練する二段階メタ学習問題として定式化することができる。
この定式化においてメタ勾配計算は重要な課題の1つであり、内部ループ学習手順を微分することで計算とメモリコストが大幅に向上する。
本稿では,frepo(neural feature regression with pooling)を用いて,従来の手法よりも1桁少ないメモリ要求と2桁の高速トレーニングで,最先端のパフォーマンスを実現することで,これらの課題を解決する。
提案アルゴリズムは, データセット蒸留における多種多様なオーバーフィッティングを緩和するモデルプールを用いて, 時間経過による逆プロパゲーションに類似する。
FRePoは、CIFAR100、Tiny ImageNet、ImageNet-1Kの従来の手法よりも大幅に優れている。
さらに,高品質蒸留データは,継続的な学習やメンバーシップ推論の防御など,下流のさまざまなアプリケーションを大幅に改善できることを示す。
関連論文リスト
- Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Embarassingly Simple Dataset Distillation [0.0]
本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。
蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。
異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
論文 参考訳(メタデータ) (2023-11-13T02:14:54Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Dataset Distillation Meets Provable Subset Selection [14.158845925610438]
データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。
本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。
さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
論文 参考訳(メタデータ) (2023-07-16T15:58:19Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。