論文の概要: Deep Learning on a Data Diet: Finding Important Examples Early in
Training
- arxiv url: http://arxiv.org/abs/2107.07075v2
- Date: Tue, 28 Mar 2023 13:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 20:21:50.029464
- Title: Deep Learning on a Data Diet: Finding Important Examples Early in
Training
- Title(参考訳): データダイエットのディープラーニング: トレーニングの初期段階で重要な例を見つける
- Authors: Mansheej Paul, Surya Ganguli, Gintare Karolina Dziugaite
- Abstract要約: ビジョンデータセットでは、トレーニングの初期段階で重要な例を特定するために、単純なスコアを使用することができる。
グラディエントノルメッド(GraNd)と誤差L2-ノルム(EL2N)という2つのスコアを提案する。
- 参考スコア(独自算出の注目度): 35.746302913918484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent success in deep learning has partially been driven by training
increasingly overparametrized networks on ever larger datasets. It is therefore
natural to ask: how much of the data is superfluous, which examples are
important for generalization, and how do we find them? In this work, we make
the striking observation that, in standard vision datasets, simple scores
averaged over several weight initializations can be used to identify important
examples very early in training. We propose two such scores -- the Gradient
Normed (GraNd) and the Error L2-Norm (EL2N) scores -- and demonstrate their
efficacy on a range of architectures and datasets by pruning significant
fractions of training data without sacrificing test accuracy. In fact, using
EL2N scores calculated a few epochs into training, we can prune half of the
CIFAR10 training set while slightly improving test accuracy. Furthermore, for a
given dataset, EL2N scores from one architecture or hyperparameter
configuration generalize to other configurations. Compared to recent work that
prunes data by discarding examples that are rarely forgotten over the course of
training, our scores use only local information early in training. We also use
our scores to detect noisy examples and study training dynamics through the
lens of important examples -- we investigate how the data distribution shapes
the loss surface and identify subspaces of the model's data representation that
are relatively stable over training.
- Abstract(参考訳): ディープラーニングの最近の成功は、さらに大きなデータセット上の過小評価されたネットワークのトレーニングによって部分的に推進されている。
したがって、データのうちどのくらいが過剰であるか、どの例が一般化に重要であるか、どのように見つけられるのか、という問いは自然である。
この研究では、標準的なビジョンデータセットでは、いくつかの重み初期化の平均値が、トレーニングの非常に早い段階で重要な例を特定するのに利用できるという驚くべき観察を行ないます。
We propose two such scores -- the Gradient Normed (GraNd) and the Error L2-Norm (EL2N) scores -- and demonstrate their efficacy on a range of architectures and datasets by pruning significant fractions of training data without sacrificing test accuracy. In fact, using EL2N scores calculated a few epochs into training, we can prune half of the CIFAR10 training set while slightly improving test accuracy. Furthermore, for a given dataset, EL2N scores from one architecture or hyperparameter configuration generalize to other configurations. Compared to recent work that prunes data by discarding examples that are rarely forgotten over the course of training, our scores use only local information early in training. We also use our scores to detect noisy examples and study training dynamics through the lens of important examples -- we investigate how the data distribution shapes the loss surface and identify subspaces of the model's data representation that are relatively stable over training.
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - BERT on a Data Diet: Finding Important Examples by Gradient-Based
Pruning [20.404705741136777]
我々は,GraNdとその推定バージョンであるEL2Nを,データセットの重要な例を見つけるための評価指標として紹介する。
この結果から,GraNd/EL2Nスコアが最も高いサンプルのごく一部を刈り取ることで,テスト精度を維持できるだけでなく,それを超えることを示す。
論文 参考訳(メタデータ) (2022-11-10T14:37:23Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - On the Pitfalls of Learning with Limited Data: A Facial Expression
Recognition Case Study [0.5249805590164901]
私達はビデオからの顔表現の認識の問題に焦点を合わせます。
4つのデータベースを異なる複雑さで,9つのディープラーニングアーキテクチャで動画分類を行った。
複雑なトレーニングセットは、トランスファーラーニングと合成生成データでトレーニングすると、より安定したテストセットによく変換されます。
論文 参考訳(メタデータ) (2021-04-02T18:53:41Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。