論文の概要: LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks
- arxiv url: http://arxiv.org/abs/2406.09153v1
- Date: Thu, 13 Jun 2024 14:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:34:25.020584
- Title: LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks
- Title(参考訳): LASER:コンテンツ関連課題改善のための自己指示型音声表現のアライメントによる学習
- Authors: Amit Meghanani, Thomas Hain,
- Abstract要約: 費用対効果の高い自己監督型微調整(SSFT)手法「LASER:Learning by Aligning Self-supervised Representations」について述べる。
HuBERT と WavLM モデルを用いて実験を行い、SUPERB ベンチマークを用いて、自動音声認識(ASR)と音素認識(PR)の2つのコンテンツ関連タスクについて評価した。
HuBERTは3.7%と8.2%、WavLMは4.1%と11.7%、それぞれASRとPRのタスクは1つのGPUで3時間しか微調整されない。
- 参考スコア(独自算出の注目度): 19.94790551312789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL)-based speech models are extensively used for full-stack speech processing. However, it has been observed that improving SSL-based speech representations using unlabeled speech for content-related tasks is challenging and computationally expensive. Recent attempts have been made to address this issue with cost-effective self-supervised fine-tuning (SSFT) approaches. Continuing in this direction, a cost-effective SSFT method named "LASER: Learning by Aligning Self-supervised Representations" is presented. LASER is based on the soft-DTW alignment loss with temporal regularisation term. Experiments are conducted with HuBERT and WavLM models and evaluated on the SUPERB benchmark for two content-related tasks: automatic speech recognition (ASR) and phoneme recognition (PR). A relative improvement of 3.7% and 8.2% for HuBERT, and 4.1% and 11.7% for WavLM are observed, for the ASR and PR tasks respectively, with only < 3 hours of fine-tuning on a single GPU.
- Abstract(参考訳): 自己教師付き学習(SSL)ベースの音声モデルは、フルスタック音声処理に広く利用されている。
しかし、コンテンツ関連タスクにおけるラベルなし音声によるSSLベースの音声表現の改善は困難であり、計算コストも高いことが観察されている。
近年、コスト効率のよい自己監督型微調整(SSFT)アプローチでこの問題に対処する試みが試みられている。
この方向に進み、費用対効果の高いSSFT手法「LASER:Learning by Aligning Self-supervised Representations」が提示される。
LASERは、時間的正規化項によるソフトDTWアライメント損失に基づいている。
HuBERT と WavLM モデルを用いて実験を行い,SUPERB ベンチマークで自動音声認識 (ASR) と音素認識 (PR) の2つの内容関連タスクについて評価した。
HuBERTの3.7%と8.2%、WavLMの4.1%と11.7%の相対的な改善は、それぞれASRとPRのタスクで見られ、1つのGPUで3時間以下の微調整しか行われていない。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - SCORE: Self-supervised Correspondence Fine-tuning for Improved Content
Representations [23.56580783289533]
本研究は,SSL音声表現をコンテンツ関連タスクに適用するために,自己教師付き対応(SCORE)ファインタニングというコスト効率の高いSSFT手法を提案する。
SCOREは、自動音声認識、音素認識、クエリ・バイ・サンプルタスクのための単一のGPU上で、わずか数時間の微調整(5時間)で、SUPERBベンチマークのバニラ HuBERT を上回っている。
論文 参考訳(メタデータ) (2024-03-10T16:57:51Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion
Recognition, Speaker Verification and Spoken Language Understanding [0.9023847175654603]
我々は,3つの非ASR音声タスクに対するwav2vec 2.0およびHuBERT事前学習モデルにおける部分的微調整と全微調整について検討する。
単純なダウンストリームフレームワークでは、最高のスコアはIEMOCAPの音声感情認識の79.58%、VoxCeleb1の話者検証の2.36%、Intent Classificationの87.51%、SLURPのスロットフィリングの75.32%のF1に達する。
論文 参考訳(メタデータ) (2021-11-04T10:39:06Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Task-aware Warping Factors in Mask-based Speech Enhancement [31.913984833849753]
マスクベース音声強調(SE)における2つのタスク認識ワープ要素の利用を提案する。
1つは訓練段階における音声維持とノイズ除去のバランスを制御し、もう1つは特定の下流タスクに適用されたSEパワーを制御する。
マスクベースのSE法に提案した2重ウォーピング因子アプローチを適用することは容易である。
論文 参考訳(メタデータ) (2021-08-27T05:57:37Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。