論文の概要: HARD: Hard Augmentations for Robust Distillation
- arxiv url: http://arxiv.org/abs/2305.14890v2
- Date: Thu, 25 May 2023 10:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 10:23:01.786507
- Title: HARD: Hard Augmentations for Robust Distillation
- Title(参考訳): HARD:ロバスト蒸留のためのハード強化
- Authors: Arne F. Nix, Max F. Burg, Fabian H. Sinz
- Abstract要約: 本稿では,ロバスト蒸留法(HARD)の高度化による知識蒸留の改善を提案する。
HARDは、教師と生徒が同意しない合成データポイントを生成する。
学習の強化により,ドメイン内およびドメイン外評価におけるKD性能が大幅に向上することが判明した。
- 参考スコア(独自算出の注目度): 3.8397175894277225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a simple and successful method to transfer
knowledge from a teacher to a student model solely based on functional
activity. However, current KD has a few shortcomings: it has recently been
shown that this method is unsuitable to transfer simple inductive biases like
shift equivariance, struggles to transfer out of domain generalization, and
optimization time is magnitudes longer compared to default non-KD model
training. To improve these aspects of KD, we propose Hard Augmentations for
Robust Distillation (HARD), a generally applicable data augmentation framework,
that generates synthetic data points for which the teacher and the student
disagree. We show in a simple toy example that our augmentation framework
solves the problem of transferring simple equivariances with KD. We then apply
our framework in real-world tasks for a variety of augmentation models, ranging
from simple spatial transformations to unconstrained image manipulations with a
pretrained variational autoencoder. We find that our learned augmentations
significantly improve KD performance on in-domain and out-of-domain evaluation.
Moreover, our method outperforms even state-of-the-art data augmentations and
since the augmented training inputs can be visualized, they offer a qualitative
insight into the properties that are transferred from the teacher to the
student. Thus HARD represents a generally applicable, dynamically optimized
data augmentation technique tailored to improve the generalization and
convergence speed of models trained with KD.
- Abstract(参考訳): 知識蒸留 (KD) は、教師から学生モデルに機能的活動のみに基づいて知識を伝達するシンプルで成功した方法である。
しかし、現在のKDにはいくつかの欠点がある: この手法はシフト等分散や領域一般化からの移行に苦慮し、既定の非KDモデルトレーニングよりも最適化時間が長くなるといった単純な帰納バイアスを伝達するのに不適であることが最近示されている。
KDのこれらの側面を改善するために、教師と学生が同意しない合成データポイントを生成する一般的なデータ拡張フレームワークである、ロバスト蒸留のためのハード拡張(HARD)を提案する。
簡単なおもちゃの例で、我々の拡張フレームワークはKDとの単純な等式を伝達する問題を解く。
次に,このフレームワークを実世界のタスクに適用し,簡単な空間変換から,事前学習された変分オートエンコーダによる無拘束画像操作まで,様々な拡張モデルに適用する。
学習の強化により,ドメイン内およびドメイン外評価におけるKD性能が大幅に向上することが判明した。
さらに,本手法は,教師から生徒に受け継がれる特性に関する質的な洞察を提供するため,最先端のデータ拡張でも優れる。
したがって、HARDはKDで訓練されたモデルの一般化と収束速度を改善するために調整された、汎用的で動的に最適化されたデータ拡張技術である。
関連論文リスト
- Instance-Conditioned GAN Data Augmentation for Representation Learning [29.36473147430433]
DA_IC-GANは、学習可能なデータ拡張モジュールで、ほとんどの最先端のトレーニングレシピと組み合わせて、棚外で使用することができる。
DA_IC-GAN は最大容量モデルで 1%p から 2%p の精度を向上できることを示す。
また,DA_IC-GANを自己指導型トレーニングレシピと組み合わせることで,いくつかの設定で1%pの精度向上が達成できることを示す。
論文 参考訳(メタデータ) (2023-03-16T22:45:43Z) - Distillation from Heterogeneous Models for Top-K Recommendation [43.83625440616829]
HetCompは、教師の軌跡から一連の知識を伝達することで、学生モデルをガイドするフレームワークである。
HetCompは学生モデルの蒸留品質と一般化を著しく改善する。
論文 参考訳(メタデータ) (2023-03-02T10:23:50Z) - Contrastive Learning with Consistent Representations [8.274769259790926]
本稿では,一貫性表現を用いたコントラスト学習(CoCor)を提案する。
CoCorは、拡張入力データの表現空間へのマッピングを規定する新しい整合性尺度であるDA整合性(DA整合性)である。
提案手法により,2段階最適化に基づく半教師付き学習フレームワークが実現され,画像認識のための新たな最先端結果が得られた。
論文 参考訳(メタデータ) (2023-02-03T04:34:00Z) - Continuation KD: Improved Knowledge Distillation through the Lens of
Continuation Optimization [29.113990037893597]
知識蒸留(KD)は、より大規模なモデル(教師)から知識を伝達することで、小さなモデル(学生)のパフォーマンスを向上させる自然言語理解(NLU)タスクに広く用いられている。
既存のKDテクニックは、教師の出力のノイズを軽減するものではない。
従来の手法と比較して,これらの問題に対処する新しいKD手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T16:00:20Z) - CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge
Distillation [30.56389761245621]
知識蒸留(KD)は、大規模事前学習言語モデルを圧縮するための効率的なフレームワークである。
近年, コントラスト学習, 中間層蒸留, データ拡張, アドミラルトレーニングを活用することで, KDの改善を目指す研究が急増している。
CILDAと呼ばれる知識蒸留に適した学習ベースデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-04-15T23:16:37Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。