Fugu-MT 論文翻訳(概要): Exploiting Large-scale Teacher-Student Training for On-device Acoustic Models

論文の概要: Exploiting Large-scale Teacher-Student Training for On-device Acoustic Models

arxiv url: http://arxiv.org/abs/2106.06126v1
Date: Fri, 11 Jun 2021 02:23:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-15 04:16:04.076295
Title: Exploiting Large-scale Teacher-Student Training for On-device Acoustic Models
Title（参考訳）: オンデバイス音響モデルのための大規模教員養成の試み
Authors: Jing Liu, Rupak Vignesh Swaminathan, Sree Hari Krishnan Parthasarathi, Chunchuan Lyu, Athanasios Mouchtaris, Siegfried Kunzmann
Abstract要約: 音響モデル(AM)の半教師付き学習(SSL)におけるAlexa音声チームの結果を示す。少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練されたより小さなキャパシティモデルが、14.3%のワードエラー率削減(WERR)によってベースライン監視システムより優れていることを示した。教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。
参考スコア（独自算出の注目度）: 15.237992590162593
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present results from Alexa speech teams on semi-supervised learning (SSL) of acoustic models (AM) with experiments spanning over 3000 hours of GPU time, making our study one of the largest of its kind. We discuss SSL for AMs in a small footprint setting, showing that a smaller capacity model trained with 1 million hours of unsupervised data can outperform a baseline supervised system by 14.3% word error rate reduction (WERR). When increasing the supervised data to seven-fold, our gains diminish to 7.1% WERR; to improve SSL efficiency at larger supervised data regimes, we employ a step-wise distillation into a smaller model, obtaining a WERR of 14.4%. We then switch to SSL using larger student models in low data regimes; while learning efficiency with unsupervised data is higher, student models may outperform teacher models in such a setting. We develop a theoretical sketch to explain this behavior.
Abstract（参考訳）: 私たちはAlexaの音声認識チームによる、3000時間以上のGPU時間にわたる実験によるアコースティックモデル(AM)の半教師付き学習(SSL)について、その研究は、その種類の中で最大である。少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練された小さなキャパシティモデルにより、ベースラインの教師付きシステムよりも14.3%のワードエラー率削減(WERR)を達成できることを示した。教師付きデータを7倍に増やすと、我々のゲインは7.1% WERRに減少し、より大きな監督型データ体制におけるSSL効率を向上させるために、より小さなモデルに段階的に蒸留し、WERRの14.4%を得る。教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。我々はこの振る舞いを説明するための理論的スケッチを開発する。

関連論文リスト

The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains [50.66245575710432]
個々のデータポイントからなるペアの嗜好データにより、個々のデータポイントの強度を超える利得が得られることを示す。私たちの研究は、モデルが一般的に弱いと考えられるペアデータから驚くほどうまく学習できることを示しています。
論文参考訳（メタデータ） (2025-07-08T17:14:44Z)
Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.25404278506585]
135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
論文参考訳（メタデータ） (2025-04-10T15:41:51Z)
MiniPLM: Knowledge Distillation for Pre-Training Language Models [109.83741809808483]
MiniPLMは、学生言語モデルを事前学習するためのKDフレームワークである。効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LMに対するKDを訓練時間のコストを伴わずに行えるようにした。柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
論文参考訳（メタデータ） (2024-10-22T17:40:32Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments [4.541309099803903]
本研究では,超微調整大言語モデル(LLM)の知識蒸留(KD)手法を提案する。リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文参考訳（メタデータ） (2023-12-26T01:24:25Z)
Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文参考訳（メタデータ） (2023-10-20T14:11:04Z)
Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文参考訳（メタデータ） (2023-01-11T06:32:28Z)
Speech separation with large-scale self-supervised learning [41.96634125460265]
WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験において、有望な音声分離(SS)結果を示している。トレーニング済みデータ(300K時間以上)と微調整データ(10K時間以上)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
論文参考訳（メタデータ） (2022-11-09T20:00:21Z)
FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech Self-Supervised Learning [12.561034842067887]
提案するFitHuBERTは,従来のSSL蒸留法と比較して,ほぼすべてのモデル成分の次元を薄くし,層厚を深くする。提案手法では,HuBERTと比較して23.8%,推定時間35.9%に縮小した。また,従来よりも優れているSUPERBベンチマークでは,単語誤り率12.1%,音素誤り率13.3%を達成している。
論文参考訳（メタデータ） (2022-07-01T17:11:23Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文参考訳（メタデータ） (2021-09-27T17:59:19Z)
Contrastive Semi-supervised Learning for ASR [16.070972355201253]
視覚オブジェクトの教師あり学習のためのコントラスト半教師学習(CSL)を提案する。 CSLは教師生成の擬似ラベルを直接予測し、ポジティブな例とネガティブな例を選択する。監視データの10hrを使用して75,000hrのビデオをアノテートする場合、標準のクロスエントロピー擬似ラベル(CE-PL)と比較してWERを8%削減します。
論文参考訳（メタデータ） (2021-03-09T00:20:37Z)
SEED: Self-supervised Distillation For Visual Representation [34.63488756535054]
SEED(Self-SupErvised Distillation)と呼ばれる新しい学習パラダイムを提案し、自己監督的な方法でその表現的知識を小さなアーキテクチャ(学生)に転送します。私達はSEEDが下流の仕事の小さいネットワークの性能を劇的に高めることを示します。
論文参考訳（メタデータ） (2021-01-12T20:04:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。