論文の概要: Revisiting Intermediate Layer Distillation for Compressing Language
Models: An Overfitting Perspective
- arxiv url: http://arxiv.org/abs/2302.01530v1
- Date: Fri, 3 Feb 2023 04:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:32:11.072569
- Title: Revisiting Intermediate Layer Distillation for Compressing Language
Models: An Overfitting Perspective
- Title(参考訳): 圧縮言語モデルのための中間層蒸留の再検討:オーバーフィッティングの観点から
- Authors: Jongwoo Ko, Seungjoon Park, Minchan Jeong, Sukjin Hong, Euijai Ahn,
Du-Seong Chang, Se-Young Yun
- Abstract要約: 中間層蒸留(ILD)は事実上の標準KD法であり,NLPフィールドの性能向上に寄与している。
本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。
我々は,学生モデルがトレーニングデータセットを過度に適合させるのを防ぐ,シンプルで効果的な一貫性規則化IDDを提案する。
- 参考スコア(独自算出の注目度): 7.481220126953329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a highly promising method for mitigating the
computational problems of pre-trained language models (PLMs). Among various KD
approaches, Intermediate Layer Distillation (ILD) has been a de facto standard
KD method with its performance efficacy in the NLP field. In this paper, we
find that existing ILD methods are prone to overfitting to training datasets,
although these methods transfer more information than the original KD. Next, we
present the simple observations to mitigate the overfitting of ILD: distilling
only the last Transformer layer and conducting ILD on supplementary tasks.
Based on our two findings, we propose a simple yet effective
consistency-regularized ILD (CR-ILD), which prevents the student model from
overfitting the training dataset. Substantial experiments on distilling BERT on
the GLUE benchmark and several synthetic datasets demonstrate that our proposed
ILD method outperforms other KD techniques. Our code is available at
https://github.com/jongwooko/CR-ILD.
- Abstract(参考訳): 知識蒸留(KD)は、事前学習された言語モデル(PLM)の計算問題を緩和するための非常に有望な手法である。
種々のKD手法の中で, 中間層蒸留法(ILD)は, NLP分野における性能有効性を有する事実上の標準KD法である。
本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。
次に,最後のトランスフォーマー層のみを蒸留し,補助的な作業でILDを実行することで,IDDの過度な適合を緩和するための簡単な観察結果を示す。
この2つの知見に基づいて,学生モデルがトレーニングデータセットを過度に適合させない簡易かつ効果的な整合性規則化IDD(CR-ILD)を提案する。
GLUEベンチマークおよびいくつかの合成データセット上でのBERTの蒸留に関する基礎実験により,提案手法が他のKD法よりも優れていることが示された。
私たちのコードはhttps://github.com/jongwooko/cr-ildで利用可能です。
関連論文リスト
- Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks [10.932880269282014]
SSL事前トレーニングのための最初の有効なDD法を提案する。
具体的には、SSLでトレーニングされたより大きな教師モデルの表現に合わせるために、小さな学生モデルを訓練する。
KDの目的はSSLよりもかなり分散度が低いため、我々の手法は、高品質エンコーダの事前訓練に成功できる合成データセットを生成することができる。
論文 参考訳(メタデータ) (2024-10-03T00:39:25Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Continual Detection Transformer for Incremental Object Detection [154.8345288298059]
インクリメンタルオブジェクト検出(IOD)は、新しいオブジェクトカテゴリに対するアノテーションを備えた、フェーズ内のオブジェクト検出をトレーニングすることを目的としている。
他の段階的な設定として、IODは破滅的な忘れがちであり、知識蒸留(KD)や模範再生(ER)といった技術によってしばしば対処される。
本稿では,この文脈でKDとERを効果的に活用できるトランスフォーマーベースのIODを提案する。
論文 参考訳(メタデータ) (2023-04-06T14:38:40Z) - CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge
Distillation [30.56389761245621]
知識蒸留(KD)は、大規模事前学習言語モデルを圧縮するための効率的なフレームワークである。
近年, コントラスト学習, 中間層蒸留, データ拡張, アドミラルトレーニングを活用することで, KDの改善を目指す研究が急増している。
CILDAと呼ばれる知識蒸留に適した学習ベースデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-04-15T23:16:37Z) - Confidence Conditioned Knowledge Distillation [8.09591217280048]
教師モデルから学生モデルに知識を伝達するための信頼性条件付き知識蒸留(CCKD)方式を提案する。
CCKDは、教師モデルに割り当てられた信頼度を正しいクラスに利用して、サンプル固有の損失関数とターゲットを考案することで、これらの問題に対処する。
いくつかのベンチマークデータセットに対する実証的な評価は、CCKD法が他の最先端手法と同等以上の一般化性能を達成していることを示している。
論文 参考訳(メタデータ) (2021-07-06T00:33:25Z) - Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression [17.12028267150745]
条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
論文 参考訳(メタデータ) (2021-04-07T14:52:49Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。