論文の概要: A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion
Recognition, Speaker Verification and Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2111.02735v1
- Date: Thu, 4 Nov 2021 10:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 15:23:04.513776
- Title: A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion
Recognition, Speaker Verification and Spoken Language Understanding
- Title(参考訳): 音声認識・話者検証・音声言語理解のための微調整Wav2vec 2.0/HuBERTベンチマーク
- Authors: Yingzhi Wang, Abdelmoumene Boumadane and Abdelwahab Heba
- Abstract要約: 我々は,3つの非ASR音声タスクに対するwav2vec 2.0およびHuBERT事前学習モデルにおける部分的微調整と全微調整について検討する。
単純なダウンストリームフレームワークでは、最高のスコアはIEMOCAPの音声感情認識の79.58%、VoxCeleb1の話者検証の2.36%、Intent Classificationの87.51%、SLURPのスロットフィリングの75.32%のF1に達する。
- 参考スコア(独自算出の注目度): 0.9023847175654603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised speech representations such as wav2vec 2.0 and HuBERT are
making revolutionary progress in Automatic Speech Recognition (ASR). However,
self-supervised models have not been totally proved to produce better
performance on tasks other than ASR. In this work, we explore partial
fine-tuning and entire fine-tuning on wav2vec 2.0 and HuBERT pre-trained models
for three non-ASR speech tasks : Speech Emotion Recognition, Speaker
Verification and Spoken Language Understanding. We also compare pre-trained
models with/without ASR fine-tuning. With simple down-stream frameworks, the
best scores reach 79.58% weighted accuracy for Speech Emotion Recognition on
IEMOCAP, 2.36% equal error rate for Speaker Verification on VoxCeleb1, 87.51%
accuracy for Intent Classification and 75.32% F1 for Slot Filling on SLURP,
thus setting a new state-of-the-art for these three benchmarks, proving that
fine-tuned wav2vec 2.0 and HuBERT models can better learn prosodic, voice-print
and semantic representations.
- Abstract(参考訳): wav2vec 2.0 や HuBERT のような自己教師型音声表現は、自動音声認識(ASR)において革命的な進歩を遂げている。
しかし、自己教師型モデルは、ASR以外のタスクで性能が向上することが完全に証明されていない。
本研究では,3つの非ASR音声タスク(音声感情認識,話者検証,音声言語理解)に対して,wav2vec 2.0 と HuBERT による部分的微調整と全微調整を行う。
また、事前訓練されたモデルとASRファインチューニングを併用して比較する。
単純なダウンストリームフレームワークでは、IEMOCAPでの音声感情認識では79.58%、VoxCeleb1での話者検証では2.36%、SLURPでのスロットフィリングでは87.51%、SLURPでのスロットフィリングでは75.32%の精度に達し、これら3つのベンチマークでは新たな最先端が設定され、微調整されたwav2vec 2.0とHuBERTモデルの方が韻律、音声、意味表現をよりよく学習できることが証明された。
関連論文リスト
- LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks [19.94790551312789]
費用対効果の高い自己監督型微調整(SSFT)手法「LASER:Learning by Aligning Self-supervised Representations」について述べる。
HuBERT と WavLM モデルを用いて実験を行い、SUPERB ベンチマークを用いて、自動音声認識(ASR)と音素認識(PR)の2つのコンテンツ関連タスクについて評価した。
HuBERTは3.7%と8.2%、WavLMは4.1%と11.7%、それぞれASRとPRのタスクは1つのGPUで3時間しか微調整されない。
論文 参考訳(メタデータ) (2024-06-13T14:17:47Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - MelHuBERT: A simplified HuBERT on Mel spectrograms [55.608981341747246]
我々は、高度に成功した自己教師型モデルである HuBERT のトレーニングを再考する。
我々は、損失関数、入力表現、複数の段階におけるトレーニングなど、いくつかの重要なコンポーネントを改善し、単純化する。
我々のモデルであるMelHuBERTは、音声認識、話者識別、自動音声認識において良好な性能を達成することができる。
論文 参考訳(メタデータ) (2022-11-17T23:38:29Z) - Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding? [14.575551366682872]
学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。
我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
論文 参考訳(メタデータ) (2021-11-29T15:13:36Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based
on BAVED Dataset [0.0]
本稿では,アラビア語音声対話のための深層学習構築型感情認識モデルを提案する。
開発モデルは、wav2vec2.0 や HuBERT といったアートオーディオ表現の状態を取り入れている。
我々のモデルの実験と性能は、以前の既知の結果を克服する。
論文 参考訳(メタデータ) (2021-10-09T00:58:12Z) - Multi-task Voice-Activated Framework using Self-supervised Learning [0.9864260997723973]
wav2vec 2.0のような自己教師型学習手法は、未ラベルおよび未転写音声データから音声表現を学習する上で有望な結果を示している。
本稿では,様々な音声アクティベートタスクに対して,事前学習したwav2vec 2.0モデルを適用するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T19:28:57Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。