論文の概要: Dataset Distillation with Infinitely Wide Convolutional Networks
- arxiv url: http://arxiv.org/abs/2107.13034v1
- Date: Tue, 27 Jul 2021 18:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 02:04:50.971072
- Title: Dataset Distillation with Infinitely Wide Convolutional Networks
- Title(参考訳): Infinitely Wide Convolutional Networks を用いたデータセット蒸留
- Authors: Timothy Nguyen, Roman Novak, Lechao Xiao, Jaehoon Lee
- Abstract要約: 分散カーネルをベースとしたメタラーニングフレームワークを用いて,データセット蒸留の最先端結果を実現する。
CIFAR-10画像分類タスクでは64%以上のテスト精度が得られた。
我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。
- 参考スコア(独自算出の注目度): 18.837952916998947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of machine learning algorithms arises from being able to
extract useful features from large amounts of data. As model and dataset sizes
increase, dataset distillation methods that compress large datasets into
significantly smaller yet highly performant ones will become valuable in terms
of training efficiency and useful feature extraction. To that end, we apply a
novel distributed kernel based meta-learning framework to achieve
state-of-the-art results for dataset distillation using infinitely wide
convolutional neural networks. For instance, using only 10 datapoints (0.02% of
original dataset), we obtain over 64% test accuracy on CIFAR-10 image
classification task, a dramatic improvement over the previous best test
accuracy of 40%. Our state-of-the-art results extend across many other settings
for MNIST, Fashion-MNIST, CIFAR-10, CIFAR-100, and SVHN. Furthermore, we
perform some preliminary analyses of our distilled datasets to shed light on
how they differ from naturally occurring data.
- Abstract(参考訳): 機械学習アルゴリズムの有効性は、大量のデータから有用な特徴を抽出することができることから生じる。
モデルとデータセットのサイズが大きくなるにつれて、大規模なデータセットを非常に小さくかつ高いパフォーマンスのデータセットに圧縮するデータセット蒸留法は、トレーニング効率と有用な特徴抽出の観点から価値が増す。
そこで我々は,分散カーネルをベースとした新しいメタラーニングフレームワークを適用し,無限大の畳み込みニューラルネットワークを用いたデータセット蒸留の最先端結果を実現する。
例えば、10個のデータポイント(オリジナルデータセットの0.02%)のみを使用して、cifar-10の画像分類タスクで64%以上のテスト精度を得ました。
我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。
さらに, 蒸留したデータセットの予備分析を行い, 自然発生データとどのように異なるかを明らかにした。
関連論文リスト
- Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Distilled Pruning: Using Synthetic Data to Win the Lottery [2.4366811507669124]
この研究は、蒸留データを用いてディープラーニングモデルを刈り取る新しいアプローチを導入する。
当社のアプローチでは,CIFAR-10上でのイテレーティブマグニチュード・プルーニングよりも5倍の速度で,スパースでトレーニング可能なワークを見つけることができる。
実験結果は、資源効率のよいニューラルネットワークプルーニング、モデル圧縮、ニューラルネットワーク探索に蒸留データを使用することの可能性を強調した。
論文 参考訳(メタデータ) (2023-07-07T03:07:28Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。