論文の概要: Distilling the Knowledge in Data Pruning
- arxiv url: http://arxiv.org/abs/2403.07854v1
- Date: Tue, 12 Mar 2024 17:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 19:47:31.758878
- Title: Distilling the Knowledge in Data Pruning
- Title(参考訳): データプルーニングにおける知識の蒸留
- Authors: Emanuel Ben-Baruch, Adam Botach, Igor Kviatkovsky, Manoj Aggarwal,
G\'erard Medioni
- Abstract要約: 刈り込みサブセットのトレーニングにおいて,知識蒸留(KD)を取り入れたデータ刈り込みの適用について検討する。
我々は、データセット、プルーニング方法、および全てのプルーニング率において、大幅な改善を示す。
興味をそそる観察を行ない、より低いプルーニング率を使用すると、より大きな教師が精度を低下させ、驚くべきことに、学生よりも少ない能力の教師を雇うことで、結果が改善する可能性がある。
- 参考スコア(独自算出の注目度): 6.349764856675644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the increasing size of datasets used for training neural networks, data
pruning becomes an attractive field of research. However, most current data
pruning algorithms are limited in their ability to preserve accuracy compared
to models trained on the full data, especially in high pruning regimes. In this
paper we explore the application of data pruning while incorporating knowledge
distillation (KD) when training on a pruned subset. That is, rather than
relying solely on ground-truth labels, we also use the soft predictions from a
teacher network pre-trained on the complete data. By integrating KD into
training, we demonstrate significant improvement across datasets, pruning
methods, and on all pruning fractions. We first establish a theoretical
motivation for employing self-distillation to improve training on pruned data.
Then, we empirically make a compelling and highly practical observation: using
KD, simple random pruning is comparable or superior to sophisticated pruning
methods across all pruning regimes. On ImageNet for example, we achieve
superior accuracy despite training on a random subset of only 50% of the data.
Additionally, we demonstrate a crucial connection between the pruning factor
and the optimal knowledge distillation weight. This helps mitigate the impact
of samples with noisy labels and low-quality images retained by typical pruning
algorithms. Finally, we make an intriguing observation: when using lower
pruning fractions, larger teachers lead to accuracy degradation, while
surprisingly, employing teachers with a smaller capacity than the student's may
improve results. Our code will be made available.
- Abstract(参考訳): ニューラルネットワークのトレーニングに使用されるデータセットのサイズが大きくなるにつれ、データプルーニングは研究の魅力的な分野となる。
しかしながら、現在のデータプルーニングアルゴリズムのほとんどは、フルデータでトレーニングされたモデル、特に高いプルーニングレジームと比較して精度を保つ能力に制限がある。
本稿では,刈り込みサブセットのトレーニングにおいて,知識蒸留(KD)を取り入れたデータ刈り込みの適用について検討する。
つまり、地味ラベルのみに頼るのではなく、教師ネットワークからのソフトな予測を、完全なデータに基づいて事前訓練する。
kdをトレーニングに統合することで、データセット、プルーニングメソッド、およびすべてのプルーニング分数において、大幅な改善が得られます。
まず, 精錬データの訓練を改善するために, 自己蒸留を用いた理論的動機付けを確立する。
kdを用いることで、単純なランダムな刈り取りは、すべての刈り取り方式において、洗練された刈り取り方法に匹敵するか、優れている。
例えば、ImageNetでは、データの50%のランダムなサブセットをトレーニングしても、精度が優れています。
さらに,プルーニング係数と最適知識蒸留重量との間に重要な関係性を示す。
これにより、一般的なプルーニングアルゴリズムで保持されるノイズの多いラベルと低品質の画像によるサンプルの影響を軽減することができる。
最後に、我々は興味深い観察を行い、より低いプルーニング率を使用すると、より大きな教師が精度を低下させ、驚くべきことに、学生よりも少ない能力の教師を雇うことで結果が向上する可能性がある。
私たちのコードは利用可能になります。
関連論文リスト
- PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - DRoP: Distributionally Robust Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。
forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。
本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文 参考訳(メタデータ) (2021-11-24T16:47:34Z) - Deep Learning on a Data Diet: Finding Important Examples Early in
Training [35.746302913918484]
ビジョンデータセットでは、トレーニングの初期段階で重要な例を特定するために、単純なスコアを使用することができる。
グラディエントノルメッド(GraNd)と誤差L2-ノルム(EL2N)という2つのスコアを提案する。
論文 参考訳(メタデータ) (2021-07-15T02:12:20Z) - Don't Wait, Just Weight: Improving Unsupervised Representations by
Learning Goal-Driven Instance Weights [92.16372657233394]
自己教師付き学習技術は、役に立たないデータから有用な表現を学習することで、パフォーマンスを向上させることができる。
ベイジアンのインスタンスの重み付けを学習することで、下流の分類精度を向上させることができることを示す。
本研究では,STL-10 と Visual Decathlon の自己教師型回転予測タスクを用いて,BetaDataWeighter の評価を行った。
論文 参考訳(メタデータ) (2020-06-22T15:59:32Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。