論文の概要: Exploiting Large-scale Teacher-Student Training for On-device Acoustic
Models
- arxiv url: http://arxiv.org/abs/2106.06126v1
- Date: Fri, 11 Jun 2021 02:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 04:16:04.076295
- Title: Exploiting Large-scale Teacher-Student Training for On-device Acoustic
Models
- Title(参考訳): オンデバイス音響モデルのための大規模教員養成の試み
- Authors: Jing Liu, Rupak Vignesh Swaminathan, Sree Hari Krishnan Parthasarathi,
Chunchuan Lyu, Athanasios Mouchtaris, Siegfried Kunzmann
- Abstract要約: 音響モデル(AM)の半教師付き学習(SSL)におけるAlexa音声チームの結果を示す。
少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練されたより小さなキャパシティモデルが、14.3%のワードエラー率削減(WERR)によってベースライン監視システムより優れていることを示した。
教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。
- 参考スコア(独自算出の注目度): 15.237992590162593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present results from Alexa speech teams on semi-supervised learning (SSL)
of acoustic models (AM) with experiments spanning over 3000 hours of GPU time,
making our study one of the largest of its kind. We discuss SSL for AMs in a
small footprint setting, showing that a smaller capacity model trained with 1
million hours of unsupervised data can outperform a baseline supervised system
by 14.3% word error rate reduction (WERR). When increasing the supervised data
to seven-fold, our gains diminish to 7.1% WERR; to improve SSL efficiency at
larger supervised data regimes, we employ a step-wise distillation into a
smaller model, obtaining a WERR of 14.4%. We then switch to SSL using larger
student models in low data regimes; while learning efficiency with unsupervised
data is higher, student models may outperform teacher models in such a setting.
We develop a theoretical sketch to explain this behavior.
- Abstract(参考訳): 私たちはAlexaの音声認識チームによる、3000時間以上のGPU時間にわたる実験によるアコースティックモデル(AM)の半教師付き学習(SSL)について、その研究は、その種類の中で最大である。
少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練された小さなキャパシティモデルにより、ベースラインの教師付きシステムよりも14.3%のワードエラー率削減(WERR)を達成できることを示した。
教師付きデータを7倍に増やすと、我々のゲインは7.1% WERRに減少し、より大きな監督型データ体制におけるSSL効率を向上させるために、より小さなモデルに段階的に蒸留し、WERRの14.4%を得る。
教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。
我々はこの振る舞いを説明するための理論的スケッチを開発する。
関連論文リスト
- Knowledge Distillation of LLM for Automatic Scoring of Science Education
Assessments [4.541309099803903]
本研究では, より小さく, より効率的かつ正確なニューラルネットワークへの微調整型大言語モデル(LLM)の知識蒸留(KD)手法を提案する。
リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文 参考訳(メタデータ) (2023-12-26T01:24:25Z) - Teaching Language Models to Self-Improve through Interactive
Demonstrations [90.05698053752806]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - Speech separation with large-scale self-supervised learning [41.96634125460265]
WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験において、有望な音声分離(SS)結果を示している。
トレーニング済みデータ(300K時間以上)と微調整データ(10K時間以上)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
論文 参考訳(メタデータ) (2022-11-09T20:00:21Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech
Self-Supervised Learning [12.561034842067887]
提案するFitHuBERTは,従来のSSL蒸留法と比較して,ほぼすべてのモデル成分の次元を薄くし,層厚を深くする。
提案手法では,HuBERTと比較して23.8%,推定時間35.9%に縮小した。
また,従来よりも優れているSUPERBベンチマークでは,単語誤り率12.1%,音素誤り率13.3%を達成している。
論文 参考訳(メタデータ) (2022-07-01T17:11:23Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Contrastive Semi-supervised Learning for ASR [16.070972355201253]
視覚オブジェクトの教師あり学習のためのコントラスト半教師学習(CSL)を提案する。
CSLは教師生成の擬似ラベルを直接予測し、ポジティブな例とネガティブな例を選択する。
監視データの10hrを使用して75,000hrのビデオをアノテートする場合、標準のクロスエントロピー擬似ラベル(CE-PL)と比較してWERを8%削減します。
論文 参考訳(メタデータ) (2021-03-09T00:20:37Z) - SEED: Self-supervised Distillation For Visual Representation [34.63488756535054]
SEED(Self-SupErvised Distillation)と呼ばれる新しい学習パラダイムを提案し、自己監督的な方法でその表現的知識を小さなアーキテクチャ(学生)に転送します。
私達はSEEDが下流の仕事の小さいネットワークの性能を劇的に高めることを示します。
論文 参考訳(メタデータ) (2021-01-12T20:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。