論文の概要: Understanding the Effect of Data Augmentation on Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2305.12565v1
- Date: Sun, 21 May 2023 21:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:34:42.211236
- Title: Understanding the Effect of Data Augmentation on Knowledge Distillation
- Title(参考訳): 知識蒸留におけるデータ拡張の効果の理解
- Authors: Ziqi Wang, Chi Han, Wenxuan Bao, Heng Ji
- Abstract要約: 知識蒸留は、大規模教師モデルから小規模学生モデルへの知識伝達に十分なデータを必要とする。
同義語置換やk-アネレスト近傍といった古典的なデータ拡張技術は、最初は微調整のために設計されている。
我々の研究は、微調整と知識蒸留のデータの増大の好みの違いに光を当てている。
- 参考スコア(独自算出の注目度): 51.52777643703103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) requires sufficient data to transfer knowledge
from large-scale teacher models to small-scale student models. Therefore, data
augmentation has been widely used to mitigate the shortage of data under
specific scenarios. Classic data augmentation techniques, such as synonym
replacement and k-nearest-neighbors, are initially designed for fine-tuning. To
avoid severe semantic shifts and preserve task-specific labels, those methods
prefer to change only a small proportion of tokens (e.g., changing 10% tokens
is generally the best option for fine-tuning). However, such data augmentation
methods are sub-optimal for knowledge distillation since the teacher model
could provide label distributions and is more tolerant to semantic shifts. We
first observe that KD prefers as much data as possible, which is different from
fine-tuning that too much data will not gain more performance. Since changing
more tokens leads to more semantic shifts, we use the proportion of changed
tokens to reflect semantic shift degrees. Then we find that KD prefers
augmented data with a larger semantic shift degree (e.g., changing 30% tokens
is generally the best option for KD) than fine-tuning (changing 10% tokens).
Besides, our findings show that smaller datasets prefer larger degrees until
the out-of-distribution problem occurs (e.g., datasets with less than 10k
inputs may prefer the 50% degree, and datasets with more than 100k inputs may
prefer the 10% degree). Our work sheds light on the preference difference in
data augmentation between fine-tuning and knowledge distillation and encourages
the community to explore KD-specific data augmentation methods.
- Abstract(参考訳): 知識蒸留(KD)は、大規模教師モデルから小規模学生モデルへの知識伝達に十分なデータを必要とする。
したがって、特定のシナリオでデータ不足を軽減するために、データ拡張が広く使われている。
同義語置換やk-アネレスト近傍といった古典的なデータ拡張技術は、最初は微調整のために設計されている。
重大な意味的シフトを避け、タスク固有のラベルを保存するために、これらの方法はごくわずかなトークンだけを変更することを好んでいます(例えば、10%トークンの変更は一般的に微調整に最適な選択肢です)。
しかし,このようなデータ拡張手法は,教師モデルがラベル分布を提供できるため,知識蒸留に準最適であり,セマンティックシフトに寛容である。
私たちはまず、kdが可能な限り多くのデータを好むことを観察しました。
より多くのトークンを変更することでセマンティックシフトが増えるので、変更したトークンの割合を使ってセマンティックシフトの度合いを反映します。
すると、KDは微調整(10%のトークンの変更)よりも、より大きな意味シフト(例えば、30%のトークンの変更は一般的にKDのベストオプション)を持つ拡張データを好む。
さらに,より小さなデータセットでは,分散問題が発生するまでより広い次数を好むことが示された(例えば,10k未満のデータセットは50%の次数を好み,10k以上の入力を持つデータセットは10%の次数を好む)。
我々の研究は、微調整と知識蒸留におけるデータ拡張の好みの違いに光を当て、コミュニティにKD固有のデータ拡張方法の探求を促す。
関連論文リスト
- Condensed Sample-Guided Model Inversion for Knowledge Distillation [42.91823325342862]
知識蒸留(KD)は、訓練済みの教師モデルからよりコンパクトな学生モデルへの知識伝達を可能にするニューラルネットワーク圧縮の重要な要素である。
KDはトレーニングデータセットへのアクセスに依存しているため、プライバシの懸念や、データのサイズに関する論理的な問題のために、必ずしも完全に利用できるとは限らない。
本稿では, 縮合したサンプルを補足情報の一形態とみなし, 対象データ分布をよりよく近似する手法を提案する。
論文 参考訳(メタデータ) (2024-08-25T14:43:27Z) - De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts [32.1016787150064]
Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。
既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。
本稿では,このような変化の影響から学生モデルを遠ざけるために,因果推論を用いた新しい視点を提案する。
論文 参考訳(メタデータ) (2024-03-28T16:13:22Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Augmentation with Projection: Towards an Effective and Efficient Data
Augmentation Paradigm for Distillation [47.31894017472831]
AugPro (Augmentation with Projection) は、蒸留のための効率的かつ効率的なデータ拡張方法である。
本手法は,多様性表現を維持するために,表現拡張法の上に構築する。
複数のGLUEタスクの結果から, 蒸留性能を低コストで高いマージンで向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-21T07:08:31Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Reminding the Incremental Language Model via Data-Free Self-Distillation [26.960750314663294]
擬似データによる増分学習は、ニューラルネットワークにおける破滅的な忘れを軽減できる。
データフリー自己蒸留(DFSD)を用いたインクリメンタル言語モデルを提案する。
我々のDFSDは、擬似データの最大減少率が90%であっても、従来の最先端手法を超えることができる。
論文 参考訳(メタデータ) (2021-10-17T07:27:43Z) - CADDA: Class-wise Automatic Differentiable Data Augmentation for EEG
Signals [92.60744099084157]
本研究では、勾配に基づく学習に適した微分可能データ拡張を提案する。
本研究は,臨床関連睡眠ステージ分類課題におけるアプローチの意義を示す。
論文 参考訳(メタデータ) (2021-06-25T15:28:48Z) - Don't Wait, Just Weight: Improving Unsupervised Representations by
Learning Goal-Driven Instance Weights [92.16372657233394]
自己教師付き学習技術は、役に立たないデータから有用な表現を学習することで、パフォーマンスを向上させることができる。
ベイジアンのインスタンスの重み付けを学習することで、下流の分類精度を向上させることができることを示す。
本研究では,STL-10 と Visual Decathlon の自己教師型回転予測タスクを用いて,BetaDataWeighter の評価を行った。
論文 参考訳(メタデータ) (2020-06-22T15:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。