論文の概要: Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with
Academic Compute
- arxiv url: http://arxiv.org/abs/2306.06672v1
- Date: Sun, 11 Jun 2023 12:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:27:18.443638
- Title: Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with
Academic Compute
- Title(参考訳): 自己監督型学習へのバリアの削減: アカデミックコンピューティングによるHumberT事前学習
- Authors: William Chen, Xuankai Chang, Yifan Peng, Zhaoheng Ni, Soumi Maiti,
Shinji Watanabe
- Abstract要約: 自己教師付き学習(SSL)は、音声処理において大きな進歩をもたらした。
しかし、これらのモデルをトレーニングするために必要なリソースは、違法に大きくなる。
本研究では,HuBERT SSLを学術的制約に適合するように最適化する。
- 参考スコア(独自算出の注目度): 40.6786244647298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has led to great strides in speech processing.
However, the resources needed to train these models has become prohibitively
large as they continue to scale. Currently, only a few groups with substantial
resources are capable of creating SSL models, which harms reproducibility. In
this work, we optimize HuBERT SSL to fit in academic constraints. We reproduce
HuBERT independently from the original implementation, with no performance
loss. Our code and training optimizations make SSL feasible with only 8 GPUs,
instead of the 32 used in the original work. We also explore a semi-supervised
route, using an ASR model to skip the first pre-training iteration. Within one
iteration of pre-training, our models improve over HuBERT on several tasks.
Furthermore, our HuBERT Large variant requires only 8 GPUs, achieving similar
performance to the original trained on 128. As our contribution to the
community, all models, configurations, and code are made open-source in ESPnet.
- Abstract(参考訳): 自己教師付き学習(SSL)は、音声処理において大きな進歩をもたらした。
しかし、これらのモデルをトレーニングするために必要なリソースは、スケールし続けるにつれて、違法に大きくなる。
現在、SSLモデルを作成することができるリソースを持つグループはごくわずかであり、再現性に悪影響を及ぼす。
本研究では,HuBERT SSLを学術的制約に適合するように最適化する。
我々はHuBERTをオリジナルの実装とは独立して再現する。
コードとトレーニングの最適化により、SSLはオリジナルの作業で使用されている32ではなく、たった8つのGPUで実現できます。
また、ASRモデルを用いて、最初の事前学習イテレーションをスキップする半教師付き経路についても検討する。
事前トレーニングの1イテレーションで、我々のモデルはいくつかのタスクにおいて HuBERT よりも改善される。
さらに、私たちのHuBERT Large variantは8GPUしか必要とせず、128でトレーニングされたオリジナルと同じようなパフォーマンスを実現しています。
コミュニティへの貢献として、すべてのモデル、構成、コードはespnetでオープンソースにされています。
関連論文リスト
- Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech
Models [34.464301065191336]
自己教師付き学習(SSL)は多くの音声処理タスクで顕著な成功を収めてきたが、大きなモデルサイズと計算コストが配置を妨げている。
本稿では,共同蒸留とプルーニングに基づく音声SSLのタスク非依存圧縮手法であるDPHuBERTを提案する。
論文 参考訳(メタデータ) (2023-05-28T07:09:33Z) - MelHuBERT: A simplified HuBERT on Mel spectrograms [55.608981341747246]
我々は、高度に成功した自己教師型モデルである HuBERT のトレーニングを再考する。
我々は、損失関数、入力表現、複数の段階におけるトレーニングなど、いくつかの重要なコンポーネントを改善し、単純化する。
我々のモデルであるMelHuBERTは、音声認識、話者識別、自動音声認識において良好な性能を達成することができる。
論文 参考訳(メタデータ) (2022-11-17T23:38:29Z) - Match to Win: Analysing Sequences Lengths for Efficient Self-supervised
Learning in Speech and Audio [19.865050806327147]
自己教師型学習は、音声および音声関連アプリケーションにおいて不可欠であることが証明されている。
本稿では、特定配列長の異なるSSL事前トレーニングに関する最初の実証的研究について述べる。
ショートシーケンスでのトレーニングは、すべてのタスクで満足なパフォーマンスを維持しながら、リソースコストを劇的に削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T16:35:42Z) - DSPNet: Towards Slimmable Pretrained Networks based on Discriminative
Self-supervised Learning [43.45674911425684]
我々はDSPNet(Driminative-SSL-based Slimmable Pretrained Networks)を提案する。
DSPNetは一度にトレーニングでき、その後、さまざまなサイズの複数のサブネットワークにスリム化される。
個別に事前学習したネットワークに対して、ImageNet上でのDSPNetの同等または改善性能を示す。
論文 参考訳(メタデータ) (2022-07-13T09:32:54Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Meta-Learned Attribute Self-Gating for Continual Generalized Zero-Shot
Learning [82.07273754143547]
トレーニング中に見られないカテゴリにモデルを一般化するためのメタ連続ゼロショット学習(MCZSL)アプローチを提案する。
属性の自己決定とスケールしたクラス正規化をメタラーニングベースのトレーニングと組み合わせることで、最先端の成果を上回ることができるのです。
論文 参考訳(メタデータ) (2021-02-23T18:36:14Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。