論文の概要: The SVASR System for Text-dependent Speaker Verification (TdSV) AAIC Challenge 2024
- arxiv url: http://arxiv.org/abs/2411.16276v1
- Date: Mon, 25 Nov 2024 10:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:18:41.149704
- Title: The SVASR System for Text-dependent Speaker Verification (TdSV) AAIC Challenge 2024
- Title(参考訳): テキスト依存型話者認証(TdSV)のためのSVASRシステム
- Authors: Mohammadreza Molavi, Reza Khodadadi,
- Abstract要約: 提案システムでは,音声内容の検証にFast-Conformer-based ASRモジュールが組み込まれている。
本稿では,wav2vec-BERTモデルから抽出した話者埋め込みとReNetモデルを組み合わせた特徴融合手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces an efficient and accurate pipeline for text-dependent speaker verification (TDSV), designed to address the need for high-performance biometric systems. The proposed system incorporates a Fast-Conformer-based ASR module to validate speech content, filtering out Target-Wrong (TW) and Impostor-Wrong (IW) trials. For speaker verification, we propose a feature fusion approach that combines speaker embeddings extracted from wav2vec-BERT and ReDimNet models to create a unified speaker representation. This system achieves competitive results on the TDSV 2024 Challenge test set, with a normalized min-DCF of 0.0452 (rank 2), highlighting its effectiveness in balancing accuracy and robustness.
- Abstract(参考訳): 本稿では,テキスト依存型話者検証(TDSV)のための,高性能な生体認証システムの必要性に対処するための,効率的かつ正確なパイプラインを提案する。
提案システムでは,音声内容の検証にFast-Conformer-based ASRモジュールを組み込み,Target-Wrong (TW) とImpostor-Wrong (IW) の試行をフィルタリングする。
本稿では,wav2vec-BERTモデルから抽出した話者埋め込みとReDimNetモデルを組み合わせた特徴融合手法を提案する。
このシステムは、TDSV 2024 Challengeテストセットにおいて、正常化されたmin-DCF 0.0452 (rank 2) で競合する結果を達成し、精度とロバストさのバランスをとる上での有効性を強調した。
関連論文リスト
- Bilingual Text-dependent Speaker Verification with Pre-trained Models for TdSV Challenge 2024 [0.0]
本稿は、TdSV(Text-dependent Speaker Verification Challenge)2024のイラン分科会に提出する。
TdSVは、特定のフレーズがターゲット話者によって話されたかどうかを決定することを目的としている。
フレーズ検証では、不正確なフレーズを拒否するフレーズと、話者検証では、ドメイン適応型話者埋め込みを抽出した事前訓練されたResNet293が使用される。
Whisper-PMFAは、話者検証に適応した事前訓練されたASRモデルであり、事前訓練されたResNetの性能に劣る。
論文 参考訳(メタデータ) (2024-11-16T15:53:03Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Two-pass Decoding and Cross-adaptation Based System Combination of
End-to-end Conformer and Hybrid TDNN ASR Systems [61.90743116707422]
本稿では,ハイブリッドTDNNとConformer E2E ASRシステムのためのマルチパス再構成とクロスアダプティブに基づくシステムの組み合わせについて検討する。
NIST Hub5'00、Rt03、Rt02の評価データに対して、マルチパス再構成を用いて得られた最良の組み合わせシステムにより、統計的に有意な単語誤り率(WER)が2.5%から3.9%の絶対値(22.5%から28.9%の相対値)に低下した。
論文 参考訳(メタデータ) (2022-06-23T10:17:13Z) - Robust Speaker Recognition with Transformers Using wav2vec 2.0 [7.419725234099729]
本稿では,話者認識タスクにwav2vec 2.0深層音声表現を用いることについて検討する。
コントラスト予測符号化事前学習方式は, ラベルなしデータのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2022-03-28T20:59:58Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。