論文の概要: Bilingual Text-dependent Speaker Verification with Pre-trained Models for TdSV Challenge 2024
- arxiv url: http://arxiv.org/abs/2411.10828v1
- Date: Sat, 16 Nov 2024 15:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:31.348294
- Title: Bilingual Text-dependent Speaker Verification with Pre-trained Models for TdSV Challenge 2024
- Title(参考訳): TdSVチャレンジ2024のための事前学習モデルによるバイリンガルテキスト依存話者検証
- Authors: Seyed Ali Farokh,
- Abstract要約: 本稿は、TdSV(Text-dependent Speaker Verification Challenge)2024のイラン分科会に提出する。
TdSVは、特定のフレーズがターゲット話者によって話されたかどうかを決定することを目的としている。
フレーズ検証では、不正確なフレーズを拒否するフレーズと、話者検証では、ドメイン適応型話者埋め込みを抽出した事前訓練されたResNet293が使用される。
Whisper-PMFAは、話者検証に適応した事前訓練されたASRモデルであり、事前訓練されたResNetの性能に劣る。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents our submissions to the Iranian division of the Text-dependent Speaker Verification Challenge (TdSV) 2024. TdSV aims to determine if a specific phrase was spoken by a target speaker. We developed two independent subsystems based on pre-trained models: For phrase verification, a phrase classifier rejected incorrect phrases, while for speaker verification, a pre-trained ResNet293 with domain adaptation extracted speaker embeddings for computing cosine similarity scores. In addition, we evaluated Whisper-PMFA, a pre-trained ASR model adapted for speaker verification, and found that, although it outperforms randomly initialized ResNets, it falls short of the performance of pre-trained ResNets, highlighting the importance of large-scale pre-training. The results also demonstrate that achieving competitive performance on TdSV without joint modeling of speaker and text is possible. Our best system achieved a MinDCF of 0.0358 on the evaluation subset and won the challenge.
- Abstract(参考訳): 本稿では,TdSV (Text-dependent Speaker Verification Challenge) 2024のイラン部門への提出について述べる。
TdSVは、特定のフレーズがターゲット話者によって話されたかどうかを決定することを目的としている。
我々は,事前学習モデルに基づく2つの独立したサブシステムを開発した。フレーズ検証では,フレーズ分類器が不正確なフレーズを拒否するのに対し,話者検証では,ドメイン適応型話者埋め込みを組み込んだResNet293が,コサイン類似度スコアの計算に使用される。
さらに、話者検証に適応した事前学習型ASRモデルであるWhisper-PMFAを評価し、ランダムに初期化したResNetよりも優れているが、事前学習型ResNetの性能には劣り、大規模事前学習の重要性を強調した。
また, 話者とテキストの連成モデリングを伴わずに, TdSV 上での競合性能の実現が可能であることを示した。
我々の最良のシステムは、評価サブセットで0.0358のMinDCFを達成し、挑戦に勝った。
関連論文リスト
- Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - SVSNet: An End-to-end Speaker Voice Similarity Assessment Model [61.3813595968834]
本研究では、自然言語と合成音声の話者音声類似性を評価するために、最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。
Voice Conversion Challenge 2018と2020の実験結果は、SVSNetがよく知られたベースラインシステムより優れていることを示している。
論文 参考訳(メタデータ) (2021-07-20T10:19:46Z) - End-to-End Spoken Language Understanding for Generalized Voice
Assistants [15.241812584273886]
商用音声アシスタント(VA)における一般化音声認識のためのE2Eモデル構築のためのアプローチを提案する。
本研究では,ASRレベルとNLUレベルの両方で事前学習が可能な,完全に微分可能なトランスフォーマーベースの階層システムを提案する。
これは転写と意味分類の両方の損失に基づいて微調整され、多種多様な意図と引数の組み合わせを扱う。
論文 参考訳(メタデータ) (2021-06-16T17:56:47Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Cross-Lingual Speaker Verification with Domain-Balanced Hard Prototype
Mining and Language-Dependent Score Normalization [14.83348592874271]
本稿では,SdSV (Short-duration Speaker Verification) Challenge 2020における最上位のIDLab申請について述べる。
この課題の主な難しさは、潜在的に言語横断の試行の間に様々な音素の重なりがあることである。
我々は,最先端のECAPA-TDNNx-vectorベースの話者埋め込み抽出器を微調整するために,ドメインバランスのよいハードプロトタイプマイニングを導入する。
論文 参考訳(メタデータ) (2020-07-15T13:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。