論文の概要: FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech
Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2207.00555v1
- Date: Fri, 1 Jul 2022 17:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 13:04:28.943635
- Title: FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech
Self-Supervised Learning
- Title(参考訳): FitHuBERT: 自己指導型学習の知識蒸留のためのより薄くディープに
- Authors: Yeonghyeon Lee, Kangwook Jang, Jahyun Goo, Youngmoon Jung, Hoirin Kim
- Abstract要約: 提案するFitHuBERTは,従来のSSL蒸留法と比較して,ほぼすべてのモデル成分の次元を薄くし,層厚を深くする。
提案手法では,HuBERTと比較して23.8%,推定時間35.9%に縮小した。
また,従来よりも優れているSUPERBベンチマークでは,単語誤り率12.1%,音素誤り率13.3%を達成している。
- 参考スコア(独自算出の注目度): 12.561034842067887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale speech self-supervised learning (SSL) has emerged to the main
field of speech processing, however, the problem of computational cost arising
from its vast size makes a high entry barrier to academia. In addition,
existing distillation techniques of speech SSL models compress the model by
reducing layers, which induces performance degradation in linguistic pattern
recognition tasks such as phoneme recognition (PR). In this paper, we propose
FitHuBERT, which makes thinner in dimension throughout almost all model
components and deeper in layer compared to prior speech SSL distillation works.
Moreover, we employ a time-reduction layer to speed up inference time and
propose a method of hint-based distillation for less performance degradation.
Our method reduces the model to 23.8% in size and 35.9% in inference time
compared to HuBERT. Also, we achieve 12.1% word error rate and 13.3% phoneme
error rate on the SUPERB benchmark which is superior than prior work.
- Abstract(参考訳): 大規模音声自己教師学習(SSL)が音声処理の主流となっているが,その大規模化に伴う計算コストの問題は,学術への参入障壁を高くしている。
さらに,既存の音声SSLモデルの蒸留技術では,層を減らしてモデルを圧縮し,音素認識(PR)などの言語パターン認識タスクの性能劣化を引き起こす。
本稿では,従来のSSL蒸留法と比較して,ほぼすべてのモデル成分の次元を薄くし,層厚を深くするFitHuBERTを提案する。
さらに, 時間還元層を用いて推算時間を高速化し, 性能劣化を低減できるヒントベースの蒸留法を提案する。
提案手法では,HuBERTと比較して23.8%,推定時間35.9%に縮小した。
また,従来よりも優れているSUPERBベンチマークにおいて,単語誤り率12.1%,音素誤り率13.3%を達成した。
関連論文リスト
- STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models [10.07318014676215]
音声時間関係(STaR)を蒸留して音声SSLモデルを圧縮することを提案する。
HuBERT BASE から抽出したモデルは SUPERB ベンチマークで 79.8 の総合スコアを達成し,最大2700万のパラメータを持つモデルの中で最高の性能を示した。
論文 参考訳(メタデータ) (2023-12-14T15:37:37Z) - Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech
Representation Learning [2.120033481952703]
音声ベースのSSLモデルは計算コストの観点から共通のジレンマに直面している。
Fast-HuBERTは、Librispeech 960hベンチマークで8V100GPUで1.1日でトレーニングできる。
論文 参考訳(メタデータ) (2023-09-25T04:07:34Z) - MelHuBERT: A simplified HuBERT on Mel spectrograms [55.608981341747246]
我々は、高度に成功した自己教師型モデルである HuBERT のトレーニングを再考する。
我々は、損失関数、入力表現、複数の段階におけるトレーニングなど、いくつかの重要なコンポーネントを改善し、単純化する。
我々のモデルであるMelHuBERTは、音声認識、話者識別、自動音声認識において良好な性能を達成することができる。
論文 参考訳(メタデータ) (2022-11-17T23:38:29Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Exploring Effective Distillation of Self-Supervised Speech Models for
Automatic Speech Recognition [5.802425107635222]
SSLモデルの小型化は、実用価値の重要な研究方向となっている。
自動音声認識(ASR)のための HuBERT-based SSL モデルの有効蒸留について検討する。
特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERT の差別的損失を導入した。
論文 参考訳(メタデータ) (2022-10-27T17:21:14Z) - LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。
LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-29T14:20:55Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT [69.26447267827454]
wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。
本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
論文 参考訳(メタデータ) (2021-10-05T09:34:44Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - Exploiting Large-scale Teacher-Student Training for On-device Acoustic
Models [15.237992590162593]
音響モデル(AM)の半教師付き学習(SSL)におけるAlexa音声チームの結果を示す。
少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練されたより小さなキャパシティモデルが、14.3%のワードエラー率削減(WERR)によってベースライン監視システムより優れていることを示した。
教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-11T02:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。