論文の概要: Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech
Representation Learning
- arxiv url: http://arxiv.org/abs/2309.13860v2
- Date: Fri, 29 Sep 2023 06:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 17:18:05.104734
- Title: Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech
Representation Learning
- Title(参考訳): Fast-HuBERT:自己教師型音声表現学習のための効率的な学習フレームワーク
- Authors: Guanrou Yang, Ziyang Ma, Zhisheng Zheng, Yakun Song, Zhikang Niu, Xie
Chen
- Abstract要約: 音声ベースのSSLモデルは計算コストの観点から共通のジレンマに直面している。
Fast-HuBERTは、Librispeech 960hベンチマークで8V100GPUで1.1日でトレーニングできる。
- 参考スコア(独自算出の注目度): 2.120033481952703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed significant advancements in self-supervised
learning (SSL) methods for speech-processing tasks. Various speech-based SSL
models have been developed and present promising performance on a range of
downstream tasks including speech recognition. However, existing speech-based
SSL models face a common dilemma in terms of computational cost, which might
hinder their potential application and in-depth academic research. To address
this issue, we first analyze the computational cost of different modules during
HuBERT pre-training and then introduce a stack of efficiency optimizations,
which is named Fast-HuBERT in this paper. The proposed Fast-HuBERT can be
trained in 1.1 days with 8 V100 GPUs on the Librispeech 960h benchmark, without
performance degradation, resulting in a 5.2x speedup, compared to the original
implementation. Moreover, we explore two well-studied techniques in the
Fast-HuBERT and demonstrate consistent improvements as reported in previous
work.
- Abstract(参考訳): 近年,音声処理タスクにおける自己教師付き学習(SSL)手法の進歩が目覚ましい。
様々な音声ベースのSSLモデルを開発し、音声認識を含む下流タスクで有望な性能を示す。
しかし、既存の音声ベースのSSLモデルは計算コストの観点から共通のジレンマに直面しており、その潜在的な応用と詳細な学術研究を妨げる可能性がある。
本稿では,まず,HuBERT事前学習中の異なるモジュールの計算コストを分析し,その上で,Fast-HuBERTと呼ばれる効率最適化のスタックを導入する。
提案されたFast-HuBERTは、Librispeech 960hベンチマークで8つのV100 GPUで1.1日でトレーニングできる。
さらに、Fast-HuBERTの2つのよく研究された手法について検討し、以前の研究で報告されたように一貫した改善を示す。
関連論文リスト
- LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for
Self-supervised Representations of French Speech [71.20037500672646]
この研究は、SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介している。
これには、最大14,000時間のヘテロジニアススピーチを含む文書化、大規模で異質なコーパス、600万から10億の学習可能なパラメータを含む10のトレーニング済みSSL wav2vec 2.0モデル、下流の6つのタスクからなる評価プロトコルが含まれる。
論文 参考訳(メタデータ) (2023-09-11T14:13:09Z) - DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech
Models [34.464301065191336]
自己教師付き学習(SSL)は多くの音声処理タスクで顕著な成功を収めてきたが、大きなモデルサイズと計算コストが配置を妨げている。
本稿では,共同蒸留とプルーニングに基づく音声SSLのタスク非依存圧縮手法であるDPHuBERTを提案する。
論文 参考訳(メタデータ) (2023-05-28T07:09:33Z) - A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech
Self-Supervised Learning [12.561034842067887]
提案するFitHuBERTは,従来のSSL蒸留法と比較して,ほぼすべてのモデル成分の次元を薄くし,層厚を深くする。
提案手法では,HuBERTと比較して23.8%,推定時間35.9%に縮小した。
また,従来よりも優れているSUPERBベンチマークでは,単語誤り率12.1%,音素誤り率13.3%を達成している。
論文 参考訳(メタデータ) (2022-07-01T17:11:23Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT [69.26447267827454]
wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。
本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
論文 参考訳(メタデータ) (2021-10-05T09:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。