論文の概要: HARD: Hard Augmentations for Robust Distillation
- arxiv url: http://arxiv.org/abs/2305.14890v2
- Date: Thu, 25 May 2023 10:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 10:23:01.786507
- Title: HARD: Hard Augmentations for Robust Distillation
- Title(参考訳): HARD:ロバスト蒸留のためのハード強化
- Authors: Arne F. Nix, Max F. Burg, Fabian H. Sinz
- Abstract要約: 本稿では,ロバスト蒸留法(HARD)の高度化による知識蒸留の改善を提案する。
HARDは、教師と生徒が同意しない合成データポイントを生成する。
学習の強化により,ドメイン内およびドメイン外評価におけるKD性能が大幅に向上することが判明した。
- 参考スコア(独自算出の注目度): 3.8397175894277225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a simple and successful method to transfer
knowledge from a teacher to a student model solely based on functional
activity. However, current KD has a few shortcomings: it has recently been
shown that this method is unsuitable to transfer simple inductive biases like
shift equivariance, struggles to transfer out of domain generalization, and
optimization time is magnitudes longer compared to default non-KD model
training. To improve these aspects of KD, we propose Hard Augmentations for
Robust Distillation (HARD), a generally applicable data augmentation framework,
that generates synthetic data points for which the teacher and the student
disagree. We show in a simple toy example that our augmentation framework
solves the problem of transferring simple equivariances with KD. We then apply
our framework in real-world tasks for a variety of augmentation models, ranging
from simple spatial transformations to unconstrained image manipulations with a
pretrained variational autoencoder. We find that our learned augmentations
significantly improve KD performance on in-domain and out-of-domain evaluation.
Moreover, our method outperforms even state-of-the-art data augmentations and
since the augmented training inputs can be visualized, they offer a qualitative
insight into the properties that are transferred from the teacher to the
student. Thus HARD represents a generally applicable, dynamically optimized
data augmentation technique tailored to improve the generalization and
convergence speed of models trained with KD.
- Abstract(参考訳): 知識蒸留 (KD) は、教師から学生モデルに機能的活動のみに基づいて知識を伝達するシンプルで成功した方法である。
しかし、現在のKDにはいくつかの欠点がある: この手法はシフト等分散や領域一般化からの移行に苦慮し、既定の非KDモデルトレーニングよりも最適化時間が長くなるといった単純な帰納バイアスを伝達するのに不適であることが最近示されている。
KDのこれらの側面を改善するために、教師と学生が同意しない合成データポイントを生成する一般的なデータ拡張フレームワークである、ロバスト蒸留のためのハード拡張(HARD)を提案する。
簡単なおもちゃの例で、我々の拡張フレームワークはKDとの単純な等式を伝達する問題を解く。
次に,このフレームワークを実世界のタスクに適用し,簡単な空間変換から,事前学習された変分オートエンコーダによる無拘束画像操作まで,様々な拡張モデルに適用する。
学習の強化により,ドメイン内およびドメイン外評価におけるKD性能が大幅に向上することが判明した。
さらに,本手法は,教師から生徒に受け継がれる特性に関する質的な洞察を提供するため,最先端のデータ拡張でも優れる。
したがって、HARDはKDで訓練されたモデルの一般化と収束速度を改善するために調整された、汎用的で動的に最適化されたデータ拡張技術である。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Relational Representation Distillation [6.24302896438145]
本稿では,教師モデルと学生モデルの関係を探求し,強化するためにRepresentation Distillation (RRD)を導入する。
自己監督学習の原則に触発されて、正確な複製と類似性に焦点を当てた、リラックスした対照的な損失を使用する。
我々は,CIFAR-100とImageNet ILSVRC-2012において優れた性能を示し,KDと組み合わせた場合,教師ネットワークよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-16T14:56:13Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts [32.1016787150064]
Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。
既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。
本稿では,このような変化の影響から学生モデルを遠ざけるために,因果推論を用いた新しい視点を提案する。
論文 参考訳(メタデータ) (2024-03-28T16:13:22Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free
Continual Learning [14.379472108242235]
正規化戦略として知識蒸留(KD)を併用した模範自由クラスインクリメンタルラーニング(CIL)について検討した。
KDベースの手法はCILでうまく使われているが、以前のタスクからトレーニングデータの例にアクセスできることなくモデルを規則化するのに苦労することが多い。
近年の試験時間適応法に触発されて,インクリメンタルトレーニング中に教師と主要モデルを同時に更新する手法であるTeacher Adaptation (TA)を紹介した。
論文 参考訳(メタデータ) (2023-08-18T13:22:59Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge
Distillation [30.56389761245621]
知識蒸留(KD)は、大規模事前学習言語モデルを圧縮するための効率的なフレームワークである。
近年, コントラスト学習, 中間層蒸留, データ拡張, アドミラルトレーニングを活用することで, KDの改善を目指す研究が急増している。
CILDAと呼ばれる知識蒸留に適した学習ベースデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-04-15T23:16:37Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。