論文の概要: SKDBERT: Compressing BERT via Stochastic Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2211.14466v2
- Date: Tue, 29 Nov 2022 04:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 12:07:49.726716
- Title: SKDBERT: Compressing BERT via Stochastic Knowledge Distillation
- Title(参考訳): SKDBERT:確率的知識蒸留によるBERT圧縮
- Authors: Zixiang Ding, Guoqing Jiang, Shuai Zhang, Lin Guo, Wei Lin
- Abstract要約: 我々は、SKDBERTと呼ばれるコンパクトなBERTスタイルの言語モデルを得るための知識蒸留(SKD)を提案する。
各イテレーションにおいて、SKDは、複数の教師モデルと複数レベルの能力を持つ教師モデルからなる事前定義された教師アンサンブルから教師モデルをサンプリングし、知識を1対1で学生モデルに伝達する。
GLUEベンチマークの実験結果によると、SKDBERT は BERT$_rm BASE$ モデルのサイズを 40% 削減し、言語理解の99.5% のパフォーマンスを維持し、100%高速である。
- 参考スコア(独自算出の注目度): 17.589678394344475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose Stochastic Knowledge Distillation (SKD) to obtain
compact BERT-style language model dubbed SKDBERT. In each iteration, SKD
samples a teacher model from a pre-defined teacher ensemble, which consists of
multiple teacher models with multi-level capacities, to transfer knowledge into
student model in an one-to-one manner. Sampling distribution plays an important
role in SKD. We heuristically present three types of sampling distributions to
assign appropriate probabilities for multi-level teacher models. SKD has two
advantages: 1) it can preserve the diversities of multi-level teacher models
via stochastically sampling single teacher model in each iteration, and 2) it
can also improve the efficacy of knowledge distillation via multi-level teacher
models when large capacity gap exists between the teacher model and the student
model. Experimental results on GLUE benchmark show that SKDBERT reduces the
size of a BERT$_{\rm BASE}$ model by 40% while retaining 99.5% performances of
language understanding and being 100% faster.
- Abstract(参考訳): 本稿では、SKDBERTと呼ばれるコンパクトなBERTスタイル言語モデルを得るための確率的知識蒸留(SKD)を提案する。
各イテレーションにおいて、SKDは、複数の教師モデルと複数レベルの能力からなる教師アンサンブルから教師モデルをサンプリングし、1対1で生徒モデルに知識を伝達する。
サンプリング分布はSKDにおいて重要な役割を果たす。
我々は,多段階教師モデルに適切な確率を割り当てるための3種類のサンプリング分布をヒューリスティックに提示する。
SKDには2つの利点がある。
1)複数レベルの教師モデルの多様性を各イテレーションで確率的にサンプリングすることで保存し、
2) 教員モデルと生徒モデルとの間に大きなキャパシティギャップが存在する場合, 多段階教員モデルによる知識蒸留の有効性も向上できる。
GLUEベンチマークの実験結果によると、SKDBERT は BERT$_{\rm BASE}$ モデルのサイズを 40% 削減し、言語理解の99.5% のパフォーマンスを維持し、100%高速である。
関連論文リスト
- Dual-Teacher Ensemble Models with Double-Copy-Paste for 3D Semi-Supervised Medical Image Segmentation [31.460549289419923]
半教師付き学習(SSL)技術は、3次元医用画像セグメンテーションの高ラベリングコストに対処する。
本稿では,サンプルの特性に基づいて異なるアンサンブル法を選択するSSE(Staged Selective Ensemble)モジュールを提案する。
3次元医用画像分割作業における提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-10-15T11:23:15Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。