論文の概要: Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2309.09920v1
- Date: Mon, 18 Sep 2023 16:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:21:18.655090
- Title: Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation
- Title(参考訳): 切り離された知識蒸留によるHumbertとLSTMの蒸留
- Authors: Danilo de Oliveira, Timo Gerkmann
- Abstract要約: 本稿では,HuBERTの蒸留作業に知識蒸留の本来の方法を適用することができることを示す。
我々は,HumberTのトランスフォーマー層をLSTMに基づく蒸留モデルに蒸留し,DistilHuBERT以下でもパラメータ数を削減することを提案する。
- 参考スコア(独自算出の注目度): 19.859676581473774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much research effort is being applied to the task of compressing the
knowledge of self-supervised models, which are powerful, yet large and memory
consuming. In this work, we show that the original method of knowledge
distillation (and its more recently proposed extension, decoupled knowledge
distillation) can be applied to the task of distilling HuBERT. In contrast to
methods that focus on distilling internal features, this allows for more
freedom in the network architecture of the compressed model. We thus propose to
distill HuBERT's Transformer layers into an LSTM-based distilled model that
reduces the number of parameters even below DistilHuBERT and at the same time
shows improved performance in automatic speech recognition.
- Abstract(参考訳): 多くの研究が、強力な、しかし大きく、メモリを消費する自己監督モデルの知識を圧縮するタスクに適用されている。
本研究では,HuBERTの蒸留作業に,従来の知識蒸留法(および最近提案された拡張,非結合知識蒸留法)を適用することができることを示す。
内部的特徴の蒸留に焦点を当てた手法とは対照的に、圧縮されたモデルのネットワークアーキテクチャにおいてより自由になる。
そこで我々は, HuBERT の変換器層を LSTM に基づく蒸留モデルに蒸留し, DistilHuBERT 以下でもパラメータ数を削減し,同時に自動音声認識の性能向上を示す。
関連論文リスト
- MLKD-BERT: Multi-level Knowledge Distillation for Pre-trained Language Models [4.404914701832396]
本研究では,教師-学生の枠組みにおける多段階知識を蒸留するための知識蒸留手法MLKD-BERTを提案する。
本手法は, BERTにおける最先端の知識蒸留法より優れている。
さらに、MLKD-BERTは、生徒の注意番号を柔軟に設定でき、性能低下を少なく抑えることができる。
論文 参考訳(メタデータ) (2024-07-03T03:03:30Z) - Improving Knowledge Distillation for BERT Models: Loss Functions,
Mapping Methods, and Weight Tuning [1.1510009152620668]
本研究は, BERTモデル圧縮のための知識蒸留について検討し, 適用する。
本研究では, 損失関数を用いた実験, トランスフォーマー層マッピング法, 注意の重み付けと表現損失の調整など, 知識蒸留を改善するための様々な手法について検討する。
この研究の目的は、知識蒸留の効率性と効率を改善し、自然言語処理タスクのより効率的で正確なモデルの開発を可能にすることである。
論文 参考訳(メタデータ) (2023-08-26T20:59:21Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Self-Knowledge Distillation via Dropout [0.7883397954991659]
ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。
我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
論文 参考訳(メタデータ) (2022-08-11T05:08:55Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - LRC-BERT: Latent-representation Contrastive Knowledge Distillation for
Natural Language Understanding [12.208166079145538]
本稿では,角距離面から中間層の出力に適合するコントラスト学習に基づく知識蒸留法lrc-bertを提案する。
GLUE(General Language Understanding Evaluation)ベンチマークで8つのデータセットを検証することで、提案したRC-BERTの性能は既存の最先端手法を上回る。
論文 参考訳(メタデータ) (2020-12-14T08:39:38Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Distilling Dense Representations for Ranking using Tightly-Coupled
Teachers [52.85472936277762]
我々は最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した。
ColBERT の表現型 MaxSim 演算子から知識を抽出し、関連度スコアを単純な点積に変換する。
提案手法はクエリ待ち時間を改善し,ColBERTの面倒なストレージ要件を大幅に削減する。
論文 参考訳(メタデータ) (2020-10-22T02:26:01Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - Towards Non-task-specific Distillation of BERT via Sentence
Representation Approximation [17.62309851473892]
本稿では,事前学習したBERTを簡単なLSTMモデルに抽出できる文表現近似指向蒸留フレームワークを提案する。
我々のモデルは,任意の文レベル下流タスクに適応するために,微調整による伝達学習を行うことができる。
GLUEベンチマークによる複数のNLPタスクの実験結果から,本手法が他のタスク固有蒸留法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-07T03:03:00Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。