論文の概要: Remember the Past: Distilling Datasets into Addressable Memories for
Neural Networks
- arxiv url: http://arxiv.org/abs/2206.02916v1
- Date: Mon, 6 Jun 2022 21:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:11:22.916270
- Title: Remember the Past: Distilling Datasets into Addressable Memories for
Neural Networks
- Title(参考訳): 過去を振り返る:ニューラルネットワークの対処可能な記憶にデータセットを蒸留する
- Authors: Zhiwei Deng and Olga Russakovsky
- Abstract要約: 本稿では,大規模データセットの臨界情報をコンパクトなアドレスメモリに圧縮するアルゴリズムを提案する。
これらの記憶をリコールすることで、ニューラルネットワークを素早く再トレーニングし、パフォーマンスを回復することができる。
本研究は, 5つのベンチマークを用いて, データセットの蒸留作業に関する最新結果を示す。
- 参考スコア(独自算出の注目度): 27.389093857615876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an algorithm that compresses the critical information of a large
dataset into compact addressable memories. These memories can then be recalled
to quickly re-train a neural network and recover the performance (instead of
storing and re-training on the full original dataset).
Building upon the dataset distillation framework, we make a key observation
that a shared common representation allows for more efficient and effective
distillation. Concretely, we learn a set of bases (aka "memories") which are
shared between classes and combined through learned flexible addressing
functions to generate a diverse set of training examples. This leads to several
benefits: 1) the size of compressed data does not necessarily grow linearly
with the number of classes; 2) an overall higher compression rate with more
effective distillation is achieved; and 3) more generalized queries are allowed
beyond recalling the original classes.
We demonstrate state-of-the-art results on the dataset distillation task
across five benchmarks, including up to 16.5% and 9.7% in retained accuracy
improvement when distilling CIFAR10 and CIFAR100 respectively. We then leverage
our framework to perform continual learning, achieving state-of-the-art results
on four benchmarks, with 23.2% accuracy improvement on MANY.
- Abstract(参考訳): 本稿では,大規模データセットの臨界情報をコンパクトなアドレスメモリに圧縮するアルゴリズムを提案する。
これらのメモリをリコールして、ニューラルネットワークをすばやく再トレーニングし、パフォーマンスを回復する(オリジナルのデータセットを保存し、再トレーニングする代わりに)。
データセット蒸留フレームワークに基づいて,共有共通表現がより効率的かつ効果的な蒸留を可能にすることを重要視する。
具体的には、クラス間で共有され、学習可能なフレキシブルアドレッシング関数を通じて結合され、多様なトレーニング例を生成するベースセット("memories"と呼ばれる)を学習する。
これはいくつかの利点をもたらします
1) 圧縮データのサイズは必ずしもクラス数とともに線形に成長しない。
2 より効率的な蒸留を施した総合的な高い圧縮率を達成する。
3) より一般化されたクエリは、元のクラスをリコールする以上のことができる。
CIFAR10とCIFAR100をそれぞれ蒸留した場合の精度向上を最大16.5%、9.7%の5つのベンチマークで示す。
次に、我々のフレームワークを活用して連続学習を行い、4つのベンチマークで最先端の結果を達成し、MANYでは23.2%の精度で改善した。
関連論文リスト
- Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Data-Efficient Augmentation for Training Neural Networks [15.870155099135538]
本稿では,データポイントのサブセットを選択するための厳密な手法を提案する。
SVHNのCIFAR10では6.3倍,SVHNでは2.2倍の高速化を実現し,様々なサブセットサイズでベースラインを最大10%向上させる。
論文 参考訳(メタデータ) (2022-10-15T19:32:20Z) - Dataset Distillation with Infinitely Wide Convolutional Networks [18.837952916998947]
分散カーネルをベースとしたメタラーニングフレームワークを用いて,データセット蒸留の最先端結果を実現する。
CIFAR-10画像分類タスクでは64%以上のテスト精度が得られた。
我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。
論文 参考訳(メタデータ) (2021-07-27T18:31:42Z) - ERNIE-Tiny : A Progressive Distillation Framework for Pretrained
Transformer Compression [20.23732233214849]
プレトレーニング言語モデル(PLM)を圧縮するための4段階進行蒸留フレームワークERNIE-Tinyを提案する。
実験によると、4層のERNIE-TinyはGLUEベンチマークで12層のBERTベースの98.0%のパフォーマンスを維持している。
ERNIE-Tinyは、中国の5つのNLPタスクに対する新しい圧縮SOTAを達成し、BERTベースの精度を0.4%上回り、パラメータは7.5倍、推論速度は9.4倍向上した。
論文 参考訳(メタデータ) (2021-06-04T04:00:16Z) - Distilling Dense Representations for Ranking using Tightly-Coupled
Teachers [52.85472936277762]
我々は最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した。
ColBERT の表現型 MaxSim 演算子から知識を抽出し、関連度スコアを単純な点積に変換する。
提案手法はクエリ待ち時間を改善し,ColBERTの面倒なストレージ要件を大幅に削減する。
論文 参考訳(メタデータ) (2020-10-22T02:26:01Z) - Compression-aware Continual Learning using Singular Value Decomposition [2.4283778735260686]
本稿では,ニューラルネットワークを動的に成長させる圧縮型連続タスク学習手法を提案する。
近年のモデル圧縮技術にインスパイアされた我々は、圧縮認識トレーニングを採用し、低ランク重量近似を行う。
本手法は,コストのかかる微調整を必要とせず,最小性能の圧縮表現を実現する。
論文 参考訳(メタデータ) (2020-09-03T23:29:50Z) - Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution [17.996541285382463]
本稿では,圧縮された学生モデルと教師とのギャップを埋めるために,課外学習を提案する。
回帰と分類のタスクについて厳密な評価を行い、標準的な知識蒸留と比較すると、課外学習はギャップを46%減らして68%減らすことを示した。
これは、最近のニューラルネットワークアーキテクチャに対する経験的リスク最小化に基づくトレーニングと比較して、大幅な精度向上につながる。
論文 参考訳(メタデータ) (2020-06-30T18:21:21Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。