論文の概要: Robust Speaker Recognition with Transformers Using wav2vec 2.0
- arxiv url: http://arxiv.org/abs/2203.15095v1
- Date: Mon, 28 Mar 2022 20:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 17:10:23.421008
- Title: Robust Speaker Recognition with Transformers Using wav2vec 2.0
- Title(参考訳): wav2vec 2.0を用いた変換器によるロバスト話者認識
- Authors: Sergey Novoselov, Galina Lavrentyeva, Anastasia Avdeeva, Vladimir
Volokhov, Aleksei Gusev
- Abstract要約: 本稿では,話者認識タスクにwav2vec 2.0深層音声表現を用いることについて検討する。
コントラスト予測符号化事前学習方式は, ラベルなしデータのパワーを効果的に活用する。
- 参考スコア(独自算出の注目度): 7.419725234099729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in unsupervised speech representation learning discover new
approaches and provide new state-of-the-art for diverse types of speech
processing tasks. This paper presents an investigation of using wav2vec 2.0
deep speech representations for the speaker recognition task. The proposed
fine-tuning procedure of wav2vec 2.0 with simple TDNN and statistic pooling
back-end using additive angular margin loss allows to obtain deep speaker
embedding extractor that is well-generalized across different domains. It is
concluded that Contrastive Predictive Coding pretraining scheme efficiently
utilizes the power of unlabeled data, and thus opens the door to powerful
transformer-based speaker recognition systems. The experimental results
obtained in this study demonstrate that fine-tuning can be done on relatively
small sets and a clean version of data. Using data augmentation during
fine-tuning provides additional performance gains in speaker verification. In
this study speaker recognition systems were analyzed on a wide range of
well-known verification protocols: VoxCeleb1 cleaned test set, NIST SRE 18
development set, NIST SRE 2016 and NIST SRE 2019 evaluation set, VOiCES
evaluation set, NIST 2021 SRE, and CTS challenges sets.
- Abstract(参考訳): 教師なし音声表現学習の最近の進歩は、新しいアプローチを発見し、多様な音声処理タスクのための新しい最先端技術を提供する。
本稿では,wav2vec 2.0深部音声表現を用いた話者認識について検討する。
簡易なTDNNによるwav2vec 2.0の微調整手順と,加法的角縁損失を用いた統計的プールバックエンドにより,様々な領域でよく一般化された深層話者埋め込み抽出器が得られる。
コントラスト予測符号化事前学習方式はラベルなしデータのパワーを効果的に活用し,強力なトランスフォーマベース話者認識システムへの扉を開く。
本研究で得られた実験結果は,比較的小さなセットとクリーンなデータに対して微調整を行うことができることを示した。
微調整中にデータ拡張を使用することで、話者検証のパフォーマンスがさらに向上する。
本研究では,VoxCeleb1 クリーン化テストセット,NIST SRE 18 開発セット,NIST SRE 2016 および NIST SRE 2019 評価セット,VOiCES 評価セット,NIST 2021 SRE および CTS 課題セットについて,話者認識システムの解析を行った。
関連論文リスト
- Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition [57.31233839489528]
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合する手法について検討する。
論文 参考訳(メタデータ) (2023-02-28T13:39:17Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Fine-tuning wav2vec2 for speaker recognition [3.69563307866315]
本稿では,事前学習した重みが話者認識タスクに与える影響と,wav2vec2出力シーケンスを固定長話者埋め込みにプーリングする方法について検討する。
この枠組みを話者認識に適用するために,CE と AAM のソフトマックス損失を持つ単一発話分類変種と,BCE の損失を持つ発話ペア分類変種を提案する。
論文 参考訳(メタデータ) (2021-09-30T12:16:47Z) - On Scaling Contrastive Representations for Low-Resource Speech
Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。
極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文 参考訳(メタデータ) (2021-02-01T13:58:02Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。