論文の概要: Application of Knowledge Distillation to Multi-task Speech
Representation Learning
- arxiv url: http://arxiv.org/abs/2210.16611v2
- Date: Fri, 19 May 2023 17:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 19:32:02.832232
- Title: Application of Knowledge Distillation to Multi-task Speech
Representation Learning
- Title(参考訳): 知識蒸留のマルチタスク音声表現学習への応用
- Authors: Mine Kerpicci, Van Nguyen, Shuhua Zhang, Erik Visser
- Abstract要約: 音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
- 参考スコア(独自算出の注目度): 2.0908300719428228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model architectures such as wav2vec 2.0 and HuBERT have been proposed to
learn speech representations from audio waveforms in a self-supervised manner.
When they are combined with downstream tasks such as keyword spotting and
speaker verification, they provide state-of-the-art performance. However, these
models use a large number of parameters, the smallest version of which has 95
million parameters. This constitutes a challenge for edge AI device
deployments. In this paper, we investigate the application of knowledge
distillation to speech representation learning (SRL) models followed by joint
fine-tuning with multiple downstream voice-activated tasks. In our experiments
on two such tasks, our approach results in nearly 75% reduction in model size
while suffering only 0.1% accuracy and 0.9% equal error rate degradation
compared to the full-size model. In addition, we show that fine-tuning the SRL
models results in a significant performance boost compared to using frozen SRL
models.
- Abstract(参考訳): wav2vec 2.0 や HuBERT のようなモデルアーキテクチャは、音声波形から音声表現を自己教師方式で学習するために提案されている。
キーワードスポッティングや話者検証といった下流タスクと組み合わせることで、最先端のパフォーマンスを提供する。
しかし、これらのモデルは多数のパラメータを使用し、その最小バージョンは95万のパラメータを持つ。
これは、エッジAIデバイスデプロイメントの課題となっている。
本稿では,知識蒸留を音声表現学習(SRL)モデルに適用し,さらに複数の下流音声アクティベートタスクを用いた共同微調整を行う。
このようなタスクを2回行った実験で,本手法ではモデルサイズが約75%減少し,精度が0.1%,誤差率が0.9%低下した。
さらに, SRLモデルの微調整により, 凍結SRLモデルに比べて性能が大幅に向上することを示した。
関連論文リスト
- STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models [10.07318014676215]
音声時間関係(STaR)を蒸留して音声SSLモデルを圧縮することを提案する。
HuBERT BASE から抽出したモデルは SUPERB ベンチマークで 79.8 の総合スコアを達成し,最大2700万のパラメータを持つモデルの中で最高の性能を示した。
論文 参考訳(メタデータ) (2023-12-14T15:37:37Z) - Task-Agnostic Structured Pruning of Speech Representation Models [18.555223754089905]
性能劣化を補うための微粒なアテンションヘッドプルーニング法を提案する。
SUPERBベンチマーク実験により,複数のタスクで高密度モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-06-02T09:11:06Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。
LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-29T14:20:55Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。