Fugu-MT 論文翻訳(概要): SKDBERT: Compressing BERT via Stochastic Knowledge Distillation

論文の概要: SKDBERT: Compressing BERT via Stochastic Knowledge Distillation

arxiv url: http://arxiv.org/abs/2211.14466v2
Date: Tue, 29 Nov 2022 04:12:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 12:07:49.726716
Title: SKDBERT: Compressing BERT via Stochastic Knowledge Distillation
Title（参考訳）: SKDBERT:確率的知識蒸留によるBERT圧縮
Authors: Zixiang Ding, Guoqing Jiang, Shuai Zhang, Lin Guo, Wei Lin
Abstract要約: 我々は、SKDBERTと呼ばれるコンパクトなBERTスタイルの言語モデルを得るための知識蒸留(SKD)を提案する。各イテレーションにおいて、SKDは、複数の教師モデルと複数レベルの能力を持つ教師モデルからなる事前定義された教師アンサンブルから教師モデルをサンプリングし、知識を1対1で学生モデルに伝達する。 GLUEベンチマークの実験結果によると、SKDBERT は BERT$_rm BASE$ モデルのサイズを 40% 削減し、言語理解の99.5% のパフォーマンスを維持し、100%高速である。
参考スコア（独自算出の注目度）: 17.589678394344475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose Stochastic Knowledge Distillation (SKD) to obtain compact BERT-style language model dubbed SKDBERT. In each iteration, SKD samples a teacher model from a pre-defined teacher ensemble, which consists of multiple teacher models with multi-level capacities, to transfer knowledge into student model in an one-to-one manner. Sampling distribution plays an important role in SKD. We heuristically present three types of sampling distributions to assign appropriate probabilities for multi-level teacher models. SKD has two advantages: 1) it can preserve the diversities of multi-level teacher models via stochastically sampling single teacher model in each iteration, and 2) it can also improve the efficacy of knowledge distillation via multi-level teacher models when large capacity gap exists between the teacher model and the student model. Experimental results on GLUE benchmark show that SKDBERT reduces the size of a BERT$_{\rm BASE}$ model by 40% while retaining 99.5% performances of language understanding and being 100% faster.
Abstract（参考訳）: 本稿では、SKDBERTと呼ばれるコンパクトなBERTスタイル言語モデルを得るための確率的知識蒸留(SKD)を提案する。各イテレーションにおいて、SKDは、複数の教師モデルと複数レベルの能力からなる教師アンサンブルから教師モデルをサンプリングし、1対1で生徒モデルに知識を伝達する。サンプリング分布はSKDにおいて重要な役割を果たす。我々は,多段階教師モデルに適切な確率を割り当てるための3種類のサンプリング分布をヒューリスティックに提示する。 SKDには2つの利点がある。 1)複数レベルの教師モデルの多様性を各イテレーションで確率的にサンプリングすることで保存し、 2) 教員モデルと生徒モデルとの間に大きなキャパシティギャップが存在する場合, 多段階教員モデルによる知識蒸留の有効性も向上できる。 GLUEベンチマークの実験結果によると、SKDBERT は BERT$_{\rm BASE}$ モデルのサイズを 40% 削減し、言語理解の99.5% のパフォーマンスを維持し、100%高速である。

関連論文リスト

Matryoshka Model Learning for Improved Elastic Student Models [62.154536258259384]
MatTAは、新しいTeacher-TA-Studentレシピを使用して、複数の正確な学生モデルをトレーニングするためのフレームワークである。本手法はパブリックモデルであるGPT-2 Medium上で実証し,SAT Mathで24%,LAMBADAベンチマークで10%以上の相対的な改善を実現した。
論文参考訳（メタデータ） (2025-05-29T10:54:58Z)
Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models [22.613040767122225]
教師の選好知識を全ての潜在的選好に対する確率分布としてモデル化した選好適応蒸留フレームワークを提案する。 4つの主流アライメントベンチマークの実験では、PADが既存のアプローチよりも一貫して、大幅に優れていることが示されている。
論文参考訳（メタデータ） (2025-02-20T05:18:23Z)
Dual-Teacher Ensemble Models with Double-Copy-Paste for 3D Semi-Supervised Medical Image Segmentation [31.460549289419923]
半教師付き学習(SSL)技術は、3次元医用画像セグメンテーションの高ラベリングコストに対処する。本稿では,サンプルの特性に基づいて異なるアンサンブル法を選択するSSE(Staged Selective Ensemble)モジュールを提案する。 3次元医用画像分割作業における提案手法の有効性を実験的に検証した。
論文参考訳（メタデータ） (2024-10-15T11:23:15Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文参考訳（メタデータ） (2024-09-19T08:06:42Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文参考訳（メタデータ） (2024-08-16T22:11:01Z)
Lightweight Self-Knowledge Distillation with Multi-source Information Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文参考訳（メタデータ） (2023-05-16T05:46:31Z)
One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。 MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。 PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文参考訳（メタデータ） (2021-06-02T08:42:33Z)
Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文参考訳（メタデータ） (2020-12-11T08:56:39Z)
Structure-Level Knowledge Distillation For Multilingual Sequence Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。 25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文参考訳（メタデータ） (2020-04-08T07:14:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。