論文の概要: Fine-tuning wav2vec2 for speaker recognition
- arxiv url: http://arxiv.org/abs/2109.15053v1
- Date: Thu, 30 Sep 2021 12:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 21:39:35.671232
- Title: Fine-tuning wav2vec2 for speaker recognition
- Title(参考訳): 話者認識のための微調整wav2vec2
- Authors: Nik Vaessen, David A. van Leeuwen
- Abstract要約: 本稿では,事前学習した重みが話者認識タスクに与える影響と,wav2vec2出力シーケンスを固定長話者埋め込みにプーリングする方法について検討する。
この枠組みを話者認識に適用するために,CE と AAM のソフトマックス損失を持つ単一発話分類変種と,BCE の損失を持つ発話ペア分類変種を提案する。
- 参考スコア(独自算出の注目度): 3.69563307866315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores applying the wav2vec2 framework to speaker recognition
instead of speech recognition. We study the effectiveness of the pre-trained
weights on the speaker recognition task, and how to pool the wav2vec2 output
sequence into a fixed-length speaker embedding. To adapt the framework to
speaker recognition, we propose a single-utterance classification variant with
CE or AAM softmax loss, and an utterance-pair classification variant with BCE
loss. Our best performing variant, w2v2-aam, achieves a 1.88% EER on the
extended voxceleb1 test set compared to 1.69% EER with an ECAPA-TDNN baseline.
Code is available at https://github.com/nikvaessen/w2v2-speaker.
- Abstract(参考訳): 本稿では,音声認識の代わりにwav2vec2フレームワークを話者認識に適用することを検討する。
本稿では,事前学習した重みが話者認識タスクに与える影響と,wav2vec2出力シーケンスを固定長話者埋め込みにプーリングする方法について検討する。
この枠組みを話者認識に適用するために,CE と AAM のソフトマックス損失を持つ単一発話分類変種と,BCE の損失を持つ発話ペア分類変種を提案する。
ECAPA-TDNN ベースラインの 1.69% EER に対して,我々の最高性能である w2v2-aam は 1.88% EER を達成する。
コードはhttps://github.com/nikvaessen/w2v2-speakerで入手できる。
関連論文リスト
- One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - An Effective Transformer-based Contextual Model and Temporal Gate
Pooling for Speaker Identification [0.0]
本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。
話者識別のための強力な学習能力を備えたプール手法であるテンポラルゲートプーリングを提案する。
提案手法は28.5Mパラメータで87.1%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
論文 参考訳(メタデータ) (2023-08-22T07:34:07Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Robust Speaker Recognition with Transformers Using wav2vec 2.0 [7.419725234099729]
本稿では,話者認識タスクにwav2vec 2.0深層音声表現を用いることについて検討する。
コントラスト予測符号化事前学習方式は, ラベルなしデータのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2022-03-28T20:59:58Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。