論文の概要: MelHuBERT: A simplified HuBERT on Mel spectrogram
- arxiv url: http://arxiv.org/abs/2211.09944v1
- Date: Thu, 17 Nov 2022 23:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:25:10.042816
- Title: MelHuBERT: A simplified HuBERT on Mel spectrogram
- Title(参考訳): MelHuBERT: Mel Spectrogramを使ったシンプルなHuBERT
- Authors: Tzu-Quan Lin, Hung-yi Lee, Hao Tang
- Abstract要約: MelHuBERTは、HuBERTの簡易版で、Melのスペクトログラムを入力とし、計算とメモリ消費を大幅に削減する。
我々は、損失関数、多段階トレーニング、ストリーミングオプションなど、トレーニングのいくつかの側面について研究する。
- 参考スコア(独自算出の注目度): 74.1801673871758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised models have had great success in learning speech
representations that can generalize to various downstream tasks. HuBERT, in
particular, achieves strong performance while being relatively simple in
training compared to others. The original experimental setting is
computationally extensive, hindering the reproducibility of the models. It is
also unclear why certain design decisions are made, such as the ad-hoc loss
function, and whether these decisions have an impact on the learned
representations. We propose MelHuBERT, a simplified version of HuBERT that
takes Mel spectrograms as input, significantly reducing computation and memory
consumption. We study several aspects of training, including the loss function,
multi-stage training, and streaming options. Our result is a efficient yet
performant model that can be trained on a single GPU.
- Abstract(参考訳): 自己教師付きモデルは、様々な下流タスクに一般化できる音声表現の学習に大きな成功を収めた。
特に HuBERT は、訓練において他と比べて比較的単純でありながら、高いパフォーマンスを実現している。
元々の実験的な設定は計算的に広く、モデルの再現性を妨げている。
アドホック損失関数のような特定の設計決定がなされる理由や、これらの決定が学習した表現に影響を与えるかどうかも不明である。
We propose MelHuBERT, a simple version of HuBERT that Mel spectrograms as input, significantly reduce compute and memory consumption。
本研究では,損失関数,多段階トレーニング,ストリーミングオプションなど,トレーニングのいくつかの側面について検討する。
私たちの結果は、単一のGPUでトレーニング可能な、効率的で高性能なモデルです。
関連論文リスト
- MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations [43.479279052047985]
MS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。
ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。
論文 参考訳(メタデータ) (2024-06-09T06:30:28Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with
Academic Compute [40.6786244647298]
自己教師付き学習(SSL)は、音声処理において大きな進歩をもたらした。
しかし、これらのモデルをトレーニングするために必要なリソースは、違法に大きくなる。
本研究では,HuBERT SSLを学術的制約に適合するように最適化する。
論文 参考訳(メタデータ) (2023-06-11T12:53:46Z) - DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech
Models [34.464301065191336]
自己教師付き学習(SSL)は多くの音声処理タスクで顕著な成功を収めてきたが、大きなモデルサイズと計算コストが配置を妨げている。
本稿では,共同蒸留とプルーニングに基づく音声SSLのタスク非依存圧縮手法であるDPHuBERTを提案する。
論文 参考訳(メタデータ) (2023-05-28T07:09:33Z) - LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。
LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-29T14:20:55Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT [69.26447267827454]
wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。
本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
論文 参考訳(メタデータ) (2021-10-05T09:34:44Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。