Fugu-MT 論文翻訳(概要): Exploring Effective Distillation of Self-Supervised Speech Models for Automatic Speech Recognition

論文の概要: Exploring Effective Distillation of Self-Supervised Speech Models for Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2210.15631v3
Date: Sun, 22 Oct 2023 13:03:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 14:25:46.705077
Title: Exploring Effective Distillation of Self-Supervised Speech Models for Automatic Speech Recognition
Title（参考訳）: 自動音声認識のための自己監督音声モデルの有効蒸留探索
Authors: Yujin Wang, Changli Tang, Ziyang Ma, Zhisheng Zheng, Xie Chen and Wei-Qiang Zhang
Abstract要約: SSLモデルの小型化は、実用価値の重要な研究方向となっている。自動音声認識(ASR)のための HuBERT-based SSL モデルの有効蒸留について検討する。特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERT の差別的損失を導入した。
参考スコア（独自算出の注目度）: 5.802425107635222
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have witnessed great strides in self-supervised learning (SSL) on the speech processing. The SSL model is normally pre-trained on a great variety of unlabelled data and a large model size is preferred to increase the modeling capacity. However, this might limit its potential applications due to the expensive computation and memory costs introduced by the oversize model. Miniaturization for SSL models has become an important research direction of practical value. To this end, we explore the effective distillation of HuBERT-based SSL models for automatic speech recognition (ASR). First, in order to establish a strong baseline, a comprehensive study on different student model structures is conducted. On top of this, as a supplement to the regression loss widely adopted in previous works, a discriminative loss is introduced for HuBERT to enhance the distillation performance, especially in low-resource scenarios. In addition, we design a simple and effective algorithm to distill the front-end input from waveform to Fbank feature, resulting in 17% parameter reduction and doubling inference speed, at marginal performance degradation.
Abstract（参考訳）: 近年,音声処理における自己教師型学習(SSL)の進歩が注目されている。 SSLモデルは、通常、多数の未ラベルデータに対して事前トレーニングされ、モデリング能力を高めるために、大きなモデルサイズが好ましい。しかし、これはオーバーサイズモデルによってもたらされる計算コストとメモリコストのため、潜在的なアプリケーションを制限する可能性がある。 SSLモデルの小型化は、実用価値の重要な研究方向となっている。そこで本研究では,自動音声認識(ASR)のためのHuBERTベースのSSLモデルの有効蒸留について検討する。まず,強力なベースラインを確立するために,様々な学生モデル構造に関する総合的研究を行った。これに加えて, 従来の研究で広く採用されていたレグレッション損失の補足として, 特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERTに差別的損失が導入された。さらに、波形からFbank特徴量へのフロントエンド入力を蒸留する簡便で効率的なアルゴリズムを設計し、17%のパラメータ削減と2倍の推論速度を限界性能劣化で実現した。

関連論文リスト

An Effective Training Framework for Light-Weight Automatic Speech Recognition Models [10.295690160466936]
一つの大モデルから複数の小さなモデルを生成することができる2段階の効率的な表現学習手法を提案する。提案手法は,単語誤り率を最大12.54%向上させる3倍の学習速度を実現する。
論文参考訳（メタデータ） (2025-05-22T17:55:09Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文参考訳（メタデータ） (2024-11-14T23:56:57Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
Efficient Training of Self-Supervised Speech Foundation Models on a Compute Budget [57.807614181024114]
本稿では,限定的な計算予算の下で,自己教師付き学習(SSL)を用いて音声基礎モデルを効率的に訓練する方法を検討する。モデルアーキテクチャ、モデルサイズ、データサイズなど、予算に影響を与えるSSLの重要な要因について検討する。
論文参考訳（メタデータ） (2024-09-09T10:36:42Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。 SSLターゲットを改善するための教師なし手法を提案する。 MonoBERTとPolyBERTの2つのモデルが提案されている。
論文参考訳（メタデータ） (2023-06-15T07:45:12Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Self-supervised Neural Factor Analysis for Disentangling Utterance-level Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文参考訳（メタデータ） (2023-05-14T08:26:24Z)
METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文参考訳（メタデータ） (2022-04-13T21:39:15Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Self-Feature Regularization: Self-Feature Distillation Without Teacher Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文参考訳（メタデータ） (2021-03-12T15:29:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。