論文の概要: Deep Learning on a Data Diet: Finding Important Examples Early in
Training
- arxiv url: http://arxiv.org/abs/2107.07075v1
- Date: Thu, 15 Jul 2021 02:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-17 03:14:15.915370
- Title: Deep Learning on a Data Diet: Finding Important Examples Early in
Training
- Title(参考訳): データダイエットのディープラーニング: トレーニングの初期段階で重要な例を見つける
- Authors: Mansheej Paul, Surya Ganguli, Gintare Karolina Dziugaite
- Abstract要約: 個別学習例の初期損失勾配基準は、一般化に重要な訓練データの小さな集合を特定するのに有効であることを示す。
本研究では,訓練の早い段階でローカル情報のみを使用するデータ解析手法を提案し,トレーニング中に忘れられることがほとんどない例を捨てることで,データを創出する最近の研究に接続する。
- 参考スコア(独自算出の注目度): 38.77440727738616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of deep learning has partially been driven by training
increasingly overparametrized networks on ever larger datasets. It is therefore
natural to ask: how much of the data is superfluous, which examples are
important for generalization, and how do we find them? In this work, we make
the striking observation that, on standard vision benchmarks, the initial loss
gradient norm of individual training examples, averaged over several weight
initializations, can be used to identify a smaller set of training data that is
important for generalization. Furthermore, after only a few epochs of training,
the information in gradient norms is reflected in the normed error--L2 distance
between the predicted probabilities and one hot labels--which can be used to
prune a significant fraction of the dataset without sacrificing test accuracy.
Based on this, we propose data pruning methods which use only local information
early in training, and connect them to recent work that prunes data by
discarding examples that are rarely forgotten over the course of training. Our
methods also shed light on how the underlying data distribution shapes the
training dynamics: they rank examples based on their importance for
generalization, detect noisy examples and identify subspaces of the model's
data representation that are relatively stable over training.
- Abstract(参考訳): ディープラーニングの最近の成功は、さらに大きなデータセット上で、過度にパラメータ化されたネットワークのトレーニングによって部分的に推進されている。
したがって、データのうちどのくらいが過剰であるか、どの例が一般化に重要であるか、どのように見つけられるのか、という問いは自然である。
本研究では,標準視覚ベンチマークにおいて,複数の重み初期化を平均した個々のトレーニング例の初期損失勾配ノルムを用いて,一般化に重要な訓練データのより小さなセットを識別できることを印象的に観察する。
さらに、数回のトレーニングを経て、勾配ノルムの情報は、予測された確率と1つのホットラベルの間のl2距離のノルムに反映され、テスト精度を犠牲にすることなく、データセットのかなりの割合を損なうことができる。
そこで本研究では,訓練の早い段階でローカル情報のみを使用するデータ解析手法を提案し,学習中に忘れられることがほとんどない例を捨てることで,データを創出する最近の作業に接続する。
また,本手法では,データ分布がトレーニングのダイナミクスをどう形成するかを,一般化の重要性に基づいてランク付けし,ノイズの多いサンプルを検出し,トレーニングよりも比較的安定なモデルのデータ表現の部分空間を同定する。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - BERT on a Data Diet: Finding Important Examples by Gradient-Based
Pruning [20.404705741136777]
我々は,GraNdとその推定バージョンであるEL2Nを,データセットの重要な例を見つけるための評価指標として紹介する。
この結果から,GraNd/EL2Nスコアが最も高いサンプルのごく一部を刈り取ることで,テスト精度を維持できるだけでなく,それを超えることを示す。
論文 参考訳(メタデータ) (2022-11-10T14:37:23Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - On the Pitfalls of Learning with Limited Data: A Facial Expression
Recognition Case Study [0.5249805590164901]
私達はビデオからの顔表現の認識の問題に焦点を合わせます。
4つのデータベースを異なる複雑さで,9つのディープラーニングアーキテクチャで動画分類を行った。
複雑なトレーニングセットは、トランスファーラーニングと合成生成データでトレーニングすると、より安定したテストセットによく変換されます。
論文 参考訳(メタデータ) (2021-04-02T18:53:41Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。