論文の概要: Exploring wav2vec 2.0 on speaker verification and language
identification
- arxiv url: http://arxiv.org/abs/2012.06185v2
- Date: Thu, 14 Jan 2021 14:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 02:54:38.559858
- Title: Exploring wav2vec 2.0 on speaker verification and language
identification
- Title(参考訳): 話者認証と言語識別に関するwav2vec 2.0の探索
- Authors: Zhiyun Fan, Meng Li, Shiyu Zhou, Bo Xu
- Abstract要約: Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
- 参考スコア(独自算出の注目度): 9.047596226273495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wav2vec 2.0 is a recently proposed self-supervised framework for speech
representation learning. It follows a two-stage training process of
pre-training and fine-tuning, and performs well in speech recognition tasks
especially ultra-low resource cases. In this work, we attempt to extend
self-supervised framework to speaker verification and language identification.
First, we use some preliminary experiments to indicate that wav2vec 2.0 can
capture the information about the speaker and language. Then we demonstrate the
effectiveness of wav2vec 2.0 on the two tasks respectively. For speaker
verification, we obtain a new state-of-the-art result, Equal Error Rate (EER)
of 3.61% on the VoxCeleb1 dataset. For language identification, we obtain an
EER of 12.02% on 1 second condition and an EER of 3.47% on full-length
condition of the AP17-OLR dataset. Finally, we utilize one model to achieve the
unified modeling by the multi-task learning for the two tasks.
- Abstract(参考訳): Wav2vec 2.0は、音声表現学習のための自己教師型フレームワークである。
プリトレーニングと微調整の2段階のトレーニングプロセスに従い、音声認識タスク、特に超低リソースケースでよく機能する。
本研究では,話者検証と言語識別に自己教師付きフレームワークを拡張しようとする。
まず、wav2vec 2.0が話者と言語に関する情報をキャプチャできることを示す予備実験を行う。
次に,両タスクにおけるwav2vec 2.0の有効性を示す。
話者検証のために、VoxCeleb1データセット上で、EER(Equal Error Rate)の3.61%の新たな最先端結果を得る。
言語識別では,AP17-OLRデータセットの完全長条件で1秒条件で12.02%,EERで3.47%を得る。
最後に,2つのタスクに対するマルチタスク学習による統一モデリングを実現するために,1つのモデルを利用する。
関連論文リスト
- Federated Learning for ASR based on Wav2vec 2.0 [4.711492191554342]
自己監督によって事前訓練されたwav2vec 2.0モデルに基づいて,連合学習を用いてASRモデルを訓練する。
実験により、そのようなモデルは言語モデルを用いることなく、公式のTED-Lium 3テストセットで10.92%の単語誤り率が得られることが示された。
また,連合学習への参加による話者のASRパフォーマンスの分析を行った。
論文 参考訳(メタデータ) (2023-02-20T18:36:46Z) - Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Robust Speaker Recognition with Transformers Using wav2vec 2.0 [7.419725234099729]
本稿では,話者認識タスクにwav2vec 2.0深層音声表現を用いることについて検討する。
コントラスト予測符号化事前学習方式は, ラベルなしデータのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2022-03-28T20:59:58Z) - Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based
on BAVED Dataset [0.0]
本稿では,アラビア語音声対話のための深層学習構築型感情認識モデルを提案する。
開発モデルは、wav2vec2.0 や HuBERT といったアートオーディオ表現の状態を取り入れている。
我々のモデルの実験と性能は、以前の既知の結果を克服する。
論文 参考訳(メタデータ) (2021-10-09T00:58:12Z) - Multi-task Voice-Activated Framework using Self-supervised Learning [0.9864260997723973]
wav2vec 2.0のような自己教師型学習手法は、未ラベルおよび未転写音声データから音声表現を学習する上で有望な結果を示している。
本稿では,様々な音声アクティベートタスクに対して,事前学習したwav2vec 2.0モデルを適用するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T19:28:57Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - On Scaling Contrastive Representations for Low-Resource Speech
Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。
極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文 参考訳(メタデータ) (2021-02-01T13:58:02Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Pushing the Limits of Semi-Supervised Learning for Automatic Speech
Recognition [97.44056170380726]
我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。
我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。
We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
論文 参考訳(メタデータ) (2020-10-20T17:58:13Z) - wav2vec 2.0: A Framework for Self-Supervised Learning of Speech
Representations [51.25118580050847]
音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、最高の半教師付き手法よりも優れた性能を発揮することを示す。
wav2vec 2.0は、潜在空間で入力された音声を隠蔽し、共同で学習される潜在表現の量子化上で定義された対照的なタスクを解決する。
論文 参考訳(メタデータ) (2020-06-20T02:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。