論文の概要: DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT
- arxiv url: http://arxiv.org/abs/2110.01900v2
- Date: Wed, 6 Oct 2021 15:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 10:29:50.111614
- Title: DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT
- Title(参考訳): DistilHuBERT:隠れユニットBERTの層ワイド蒸留による音声表現学習
- Authors: Heng-Jui Chang, Shu-wen Yang, Hung-yi Lee
- Abstract要約: wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。
本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
- 参考スコア(独自算出の注目度): 69.26447267827454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised speech representation learning methods like wav2vec 2.0 and
Hidden-unit BERT (HuBERT) leverage unlabeled speech data for pre-training and
offer good representations for numerous speech processing tasks. Despite the
success of these methods, they require large memory and high pre-training
costs, making them inaccessible for researchers in academia and small
companies. Therefore, this paper introduces DistilHuBERT, a novel multi-task
learning framework to distill hidden representations from a HuBERT model
directly. This method reduces HuBERT's size by 75% and 73% faster while
retaining most performance in ten different tasks. Moreover, DistilHuBERT
required little training time and data, opening the possibilities of
pre-training personal and on-device SSL models for speech.
- Abstract(参考訳): wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを活用し、多くの音声処理タスクに優れた表現を提供する。
これらの手法の成功にもかかわらず、大きなメモリと高い事前学習コストを必要としており、アカデミックや小規模企業の研究者には利用できない。
そこで本稿では,HuBERTモデルから直接隠れ表現を抽出する,新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
この方法は、HuBERTのサイズを75%と73%速くし、10種類のタスクでほとんどのパフォーマンスを維持する。
さらに、DistilHuBERTはトレーニング時間とデータが少なく、音声のためのパーソナルおよびオンデバイスSSLモデルを事前トレーニングする可能性を開く。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - GenDistiller: Distilling Pre-trained Language Models based on an Autoregressive Generative Model [20.620589404103644]
本稿では,より小規模な学生ネットワークによって,教師モデルの隠蔽表現を生成する新しい知識蒸留フレームワークであるGenDistillerを紹介する。
提案手法は,従来の隠蔽層を履歴とみなし,教師モデルの層間予測を自己回帰的に実施する。
実験により、自動回帰フレームワークを使わずに、GenDistillerのベースライン蒸留法に対する利点が明らかとなった。
論文 参考訳(メタデータ) (2024-06-12T01:25:00Z) - MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations [43.479279052047985]
MS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。
ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。
論文 参考訳(メタデータ) (2024-06-09T06:30:28Z) - Reproducing Whisper-Style Training Using an Open-Source Toolkit and
Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。
OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文 参考訳(メタデータ) (2023-09-25T05:01:34Z) - DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech
Models [34.464301065191336]
自己教師付き学習(SSL)は多くの音声処理タスクで顕著な成功を収めてきたが、大きなモデルサイズと計算コストが配置を妨げている。
本稿では,共同蒸留とプルーニングに基づく音声SSLのタスク非依存圧縮手法であるDPHuBERTを提案する。
論文 参考訳(メタデータ) (2023-05-28T07:09:33Z) - MelHuBERT: A simplified HuBERT on Mel spectrograms [55.608981341747246]
我々は、高度に成功した自己教師型モデルである HuBERT のトレーニングを再考する。
我々は、損失関数、入力表現、複数の段階におけるトレーニングなど、いくつかの重要なコンポーネントを改善し、単純化する。
我々のモデルであるMelHuBERTは、音声認識、話者識別、自動音声認識において良好な性能を達成することができる。
論文 参考訳(メタデータ) (2022-11-17T23:38:29Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。