論文の概要: Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech
Representation Learning
- arxiv url: http://arxiv.org/abs/2309.13860v1
- Date: Mon, 25 Sep 2023 04:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 17:01:49.047704
- Title: Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech
Representation Learning
- Title(参考訳): Fast-HuBERT:自己教師型音声表現学習のための効率的な学習フレームワーク
- Authors: Guanrou Yang, Ziyang Ma, Zhisheng Zheng, Yakun Song, Zhikang Niu, Xie
Chen
- Abstract要約: 音声ベースのSSLモデルは計算コストの観点から共通のジレンマに直面している。
Fast-HuBERTは、Librispeech 960hベンチマークで8V100GPUで1.1日でトレーニングできる。
- 参考スコア(独自算出の注目度): 2.120033481952703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed significant advancements in self-supervised
learning (SSL) methods for speech-processing tasks. Various speech-based SSL
models have been developed and present promising performance on a range of
downstream tasks including speech recognition. However, existing speech-based
SSL models face a common dilemma in terms of computational cost, which might
hinder their potential application and in-depth academic research. To address
this issue, we first analyze the computational cost of different modules during
HuBERT pre-training and then introduce a stack of efficiency optimizations,
which is named Fast-HuBERT in this paper. The proposed Fast-HuBERT can be
trained in 1.1 days with 8 V100 GPUs on the Librispeech 960h benchmark, without
performance degradation, resulting in a 5.2x speedup, compared to the original
implementation. Moreover, we explore two well-studied techniques in the
Fast-HuBERT and demonstrate consistent improvements as reported in previous
work.
- Abstract(参考訳): 近年,音声処理タスクにおける自己教師付き学習(SSL)手法の進歩が目覚ましい。
様々な音声ベースのSSLモデルを開発し、音声認識を含む下流タスクで有望な性能を示す。
しかし、既存の音声ベースのSSLモデルは計算コストの観点から共通のジレンマに直面しており、その潜在的な応用と詳細な学術研究を妨げる可能性がある。
本稿では,まず,HuBERT事前学習中の異なるモジュールの計算コストを分析し,その上で,Fast-HuBERTと呼ばれる効率最適化のスタックを導入する。
提案されたFast-HuBERTは、Librispeech 960hベンチマークで8つのV100 GPUで1.1日でトレーニングできる。
さらに、Fast-HuBERTの2つのよく研究された手法について検討し、以前の研究で報告されたように一貫した改善を示す。
関連論文リスト
- Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation [43.479279052047985]
我々は、学習可能なパラメータを別々に使用して、他の情報をモデリングすることの重要性を理解するための予備的研究を行う。
まず、O-HuBERT法は、すべてのレイヤを利用して、他の情報をエンコードする複雑な機能を構築することができ、次に、他の情報に依存するタスクに必要な情報を学ぶために、堅牢なデータ拡張戦略が不可欠である。
論文 参考訳(メタデータ) (2024-08-20T05:45:04Z) - Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations [1.6008229267455227]
本稿では,大規模な音声モデルから生成されるものを含む,さまざまな音声表現に適用可能なマルチビューSSL事前学習手法を提案する。
我々の実験は、wav2vec 2.0に基づくスペクトルおよびパラ言語の特徴に基づいて、提案したフレームワークが、Unweighted Average Recallにおいて最大10%SER性能を向上することを示した。
論文 参考訳(メタデータ) (2024-06-12T06:06:55Z) - MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations [43.479279052047985]
MS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。
ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。
論文 参考訳(メタデータ) (2024-06-09T06:30:28Z) - Open Implementation and Study of BEST-RQ for Speech Processing [25.678292575349648]
ランダム投影量子化器(BEST-RQ)を用いたBERTに基づく音声事前学習は、音声認識(ASR)において優れた性能を示した。
ランダム・プロジェクション・量子化器は、トレーニング時間を2倍以上削減しつつ、wav2vec 2.0と同様のダウンストリーム性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-07T13:11:37Z) - A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT [69.26447267827454]
wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。
本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
論文 参考訳(メタデータ) (2021-10-05T09:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。