Fugu-MT 論文翻訳(概要): MelHuBERT: A simplified HuBERT on Mel spectrograms

論文の概要: MelHuBERT: A simplified HuBERT on Mel spectrograms

arxiv url: http://arxiv.org/abs/2211.09944v2
Date: Fri, 27 Oct 2023 23:12:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 23:42:44.277397
Title: MelHuBERT: A simplified HuBERT on Mel spectrograms
Title（参考訳）: MelHuBERT: Mel Spectrogramsを簡略化した HuBERT
Authors: Tzu-Quan Lin, Hung-yi Lee, Hao Tang
Abstract要約: 我々は、高度に成功した自己教師型モデルである HuBERT のトレーニングを再考する。我々は、損失関数、入力表現、複数の段階におけるトレーニングなど、いくつかの重要なコンポーネントを改善し、単純化する。我々のモデルであるMelHuBERTは、音声認識、話者識別、自動音声認識において良好な性能を達成することができる。
参考スコア（独自算出の注目度）: 62.49892218126542
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised models have had great success in learning speech representations that can generalize to various downstream tasks. However, most self-supervised models require a large amount of compute and multiple GPUs to train, significantly hampering the development of self-supervised learning. In an attempt to reduce the computation of training, we revisit the training of HuBERT, a highly successful self-supervised model. We improve and simplify several key components, including the loss function, input representation, and training in multiple stages. Our model, MelHuBERT, is able to achieve favorable performance on phone recognition, speaker identification, and automatic speech recognition against HuBERT, while saving 31.2% of the pre-training time, or equivalently 33.5% MACs per one second speech. The code and pre-trained models are available in https://github.com/nervjack2/MelHuBERT.
Abstract（参考訳）: 自己教師付きモデルは、様々な下流タスクに一般化できる音声表現の学習に大きな成功を収めた。しかし、ほとんどの自己教師付きモデルは、トレーニングに大量の計算と複数のgpuを必要とし、自己教師付き学習の開発を著しく阻害している。トレーニングの計算量を削減するために,高度に成功した自己教師型モデルであるHuBERTのトレーニングを再考する。損失関数や入力表現,トレーニングなど,いくつかの重要なコンポーネントを改善し,単純化する。我々のモデルであるMelHuBERTは、HuBERTに対する音声認識、話者識別、自動音声認識において、事前学習時間の31.2%、または1秒あたり33.5%のMACを節約し、良好なパフォーマンスを達成することができる。コードと事前訓練されたモデルはhttps://github.com/nervjack2/MelHuBERT.comで入手できる。

関連論文リスト

TouchASP: Elastic Automatic Speech Perception that Everyone Can Touch [15.001750645731162]
大規模自動音声認識(ASR)モデルは、トレーニングプロセス中に大量のパラメータ、大量のデータ、重要な計算資源を必要とする。本稿では,eMoEモデルの弾性混合モデルを提案する。このモデルを一度だけ訓練し,デプロイ要求に応じて弾性的に拡張することができる。これら2つの手法を用いて,SpeechIOテストセットのキャラクタエラー率(CER)を4.98%から2.45%に低減し,弾力的展開を実現する。
論文参考訳（メタデータ） (2024-12-20T07:28:04Z)
MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations [43.479279052047985]
MS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。 ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。
論文参考訳（メタデータ） (2024-06-09T06:30:28Z)
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文参考訳（メタデータ） (2024-02-20T02:04:38Z)
Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with Academic Compute [40.6786244647298]
自己教師付き学習(SSL)は、音声処理において大きな進歩をもたらした。しかし、これらのモデルをトレーニングするために必要なリソースは、違法に大きくなる。本研究では,HuBERT SSLを学術的制約に適合するように最適化する。
論文参考訳（メタデータ） (2023-06-11T12:53:46Z)
DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech Models [34.464301065191336]
自己教師付き学習(SSL)は多くの音声処理タスクで顕著な成功を収めてきたが、大きなモデルサイズと計算コストが配置を妨げている。本稿では,共同蒸留とプルーニングに基づく音声SSLのタスク非依存圧縮手法であるDPHuBERTを提案する。
論文参考訳（メタデータ） (2023-05-28T07:09:33Z)
LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。 LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-03-29T14:20:55Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)
DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT [69.26447267827454]
wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
論文参考訳（メタデータ） (2021-10-05T09:34:44Z)
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。 HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文参考訳（メタデータ） (2021-06-14T14:14:28Z)
Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文参考訳（メタデータ） (2020-05-18T10:42:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。