論文の概要: MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations
- arxiv url: http://arxiv.org/abs/2406.05661v2
- Date: Thu, 15 Aug 2024 10:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 18:17:13.575160
- Title: MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations
- Title(参考訳): MS-HuBERT:音声表現学習のためのマスケ言語モデルにおける事前学習と推論ミスマッチの軽減
- Authors: Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah,
- Abstract要約: MS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。
ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。
- 参考スコア(独自算出の注目度): 43.479279052047985
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In recent years, self-supervised pre-training methods have gained significant traction in learning high-level information from raw speech. Among these methods, HuBERT has demonstrated SOTA performance in automatic speech recognition (ASR). However, HuBERT's performance lags behind data2vec due to disparities in pre-training strategies. In this paper, we propose (i) a Swap method to address pre-training and inference mismatch observed in HuBERT and (ii) incorporates Multicluster masked prediction loss for more effective utilization of the models capacity. The resulting method is, MS-HuBERT, an end-to-end self-supervised pre-training method for learning robust speech representations. It beats vanilla HuBERT on the ASR Librispeech benchmark on average by a 5% margin when evaluated on different finetuning splits. Additionally, we demonstrate that the learned embeddings obtained during pre-training encode essential information for improving performance of content based tasks such as ASR.
- Abstract(参考訳): 近年, 自己指導型事前学習法は, 生音声から高次情報を学習する上で大きな牽引力となっている。
これらの手法の中で,HuBERTは自動音声認識(ASR)におけるSOTA性能を実証した。
しかし、HuBERTのパフォーマンスは、事前トレーニング戦略の相違により、Data2vecに遅れている。
本稿では,本稿で提案する。
i) HuBERT および HuBERT で観測された事前学習及び推論ミスマッチに対処するスワップ法
(II)モデルキャパシティをより効果的に活用するために、マルチクラスタマスクによる予測損失を組み込んだ。
結果として得られたMS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。
ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。
さらに,ASRなどのコンテンツベースタスクの性能向上のために,事前学習中に得られた学習した埋め込みが必須情報をエンコードしていることを示す。
関連論文リスト
- Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech
Representation Learning [2.120033481952703]
音声ベースのSSLモデルは計算コストの観点から共通のジレンマに直面している。
Fast-HuBERTは、Librispeech 960hベンチマークで8V100GPUで1.1日でトレーニングできる。
論文 参考訳(メタデータ) (2023-09-25T04:07:34Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT [69.26447267827454]
wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。
本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
論文 参考訳(メタデータ) (2021-10-05T09:34:44Z) - Private Language Model Adaptation for Speech Recognition [15.726921748859393]
音声モデルの適応は、サーバ側のプロキシトレーニングデータとユーザのローカルデバイスで受信した実際のデータとの相違を扱うために不可欠である。
本稿では,ニューラルネットワーク言語モデル(NNLM)を,音声認識に応用したプライベートデバイスに継続的に適用するための効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T00:15:43Z) - W2v-BERT: Combining Contrastive Learning and Masked Language Modeling
for Self-Supervised Speech Pre-Training [49.47516627019855]
w2v-BERTは、コントラスト学習と事前教師付き音声認識を組み合わせたフレームワークである。
実験の結果,w2v-BERTは現在の最先端の事前訓練モデルと比較して,競争力のある結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-08-07T06:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。