論文の概要: CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2204.07674v1
- Date: Fri, 15 Apr 2022 23:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 02:39:25.789717
- Title: CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge
Distillation
- Title(参考訳): CILDA:中間層知識蒸留を用いたコントラストデータ拡張
- Authors: Md Akmal Haidar, Mehdi Rezagholizadeh, Abbas Ghaddar, Khalil Bibi,
Philippe Langlais, Pascal Poupart
- Abstract要約: 知識蒸留(KD)は、大規模事前学習言語モデルを圧縮するための効率的なフレームワークである。
近年, コントラスト学習, 中間層蒸留, データ拡張, アドミラルトレーニングを活用することで, KDの改善を目指す研究が急増している。
CILDAと呼ばれる知識蒸留に適した学習ベースデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 30.56389761245621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is an efficient framework for compressing
large-scale pre-trained language models. Recent years have seen a surge of
research aiming to improve KD by leveraging Contrastive Learning, Intermediate
Layer Distillation, Data Augmentation, and Adversarial Training. In this work,
we propose a learning based data augmentation technique tailored for knowledge
distillation, called CILDA. To the best of our knowledge, this is the first
time that intermediate layer representations of the main task are used in
improving the quality of augmented samples. More precisely, we introduce an
augmentation technique for KD based on intermediate layer matching using
contrastive loss to improve masked adversarial data augmentation. CILDA
outperforms existing state-of-the-art KD approaches on the GLUE benchmark, as
well as in an out-of-domain evaluation.
- Abstract(参考訳): 知識蒸留(KD)は、大規模事前学習言語モデルを圧縮するための効率的なフレームワークである。
近年, コントラスト学習, 中間層蒸留, データ拡張, 対人訓練を活用することで, KDの改善を目指す研究が急増している。
本研究では,CILDAと呼ばれる知識蒸留に適した学習ベースデータ拡張手法を提案する。
私たちの知る限りでは、メインタスクの中間層表現が拡張されたサンプルの品質向上に使用されるのはこれが初めてです。
より正確には、コントラスト損失を用いた中間層マッチングに基づくKDの拡張手法を導入し、マスク付き対向データ拡張を改善する。
CILDAは、GLUEベンチマークの既存の最先端KDアプローチ、およびドメイン外評価よりも優れています。
関連論文リスト
- Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - HARD: Hard Augmentations for Robust Distillation [3.8397175894277225]
本稿では,ロバスト蒸留法(HARD)の高度化による知識蒸留の改善を提案する。
HARDは、教師と生徒が同意しない合成データポイントを生成する。
学習の強化により,ドメイン内およびドメイン外評価におけるKD性能が大幅に向上することが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:38:44Z) - Revisiting Intermediate Layer Distillation for Compressing Language
Models: An Overfitting Perspective [7.481220126953329]
中間層蒸留(ILD)は事実上の標準KD法であり,NLPフィールドの性能向上に寄与している。
本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。
我々は,学生モデルがトレーニングデータセットを過度に適合させるのを防ぐ,シンプルで効果的な一貫性規則化IDDを提案する。
論文 参考訳(メタデータ) (2023-02-03T04:09:22Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Automatic Data Augmentation via Deep Reinforcement Learning for
Effective Kidney Tumor Segmentation [57.78765460295249]
医用画像セグメンテーションのための新しい学習ベースデータ拡張法を開発した。
本手法では,データ拡張モジュールと後続のセグメンテーションモジュールをエンドツーエンドのトレーニング方法で一貫した損失と,革新的に組み合わせる。
提案法の有効性を検証したCT腎腫瘍分節法について,本法を広範囲に評価した。
論文 参考訳(メタデータ) (2020-02-22T14:10:13Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。