論文の概要: Text-Dependent Speaker Verification (TdSV) Challenge 2024: Team Naive System Report
- arxiv url: http://arxiv.org/abs/2605.14896v1
- Date: Thu, 14 May 2026 14:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.88099
- Title: Text-Dependent Speaker Verification (TdSV) Challenge 2024: Team Naive System Report
- Title(参考訳): テキスト依存型話者認証(TdSV)チャレンジ2024:Team Naive System Report
- Authors: Amir Mohammad Rostami, Pourya Jafarzadeh,
- Abstract要約: このシステムは0.0461の最小検出コスト関数(MinDCF)と1.3%の等誤差率(EER)を達成した。
我々のアプローチは、既存の最先端ニューラルネットワークであるResNet-TDNNとNeXt-TDNNの適応に重点を置いていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a system for the 2024 Text-Dependent Speaker Verification (TdSV) Challenge. The system achieved a Minimum Detection Cost Function (MinDCF) of 0.0461 and an Equal Error Rate (EER) of 1.3\%. Our approach focused on adapting existing state-of-the-art neural networks, ResNet-TDNN and NeXt-TDNN, originally trained on the VoxCeleb dataset. This strategy was chosen because of the limited challenge duration and the available resources at the time. In addition, we designed a lightweight and resource-efficient model, EfficientNet-A0, trained specifically on the challenge dataset to improve adaptation and strengthen the ensemble approach. Our system combines advanced neural architectures, extensive data augmentation, and optimised hyperparameters. These components helped achieve strong performance in text-dependent speaker verification. The results also demonstrate the effectiveness of multi-model ensemble learning for both speaker and phrase verification.
- Abstract(参考訳): 本稿では,2024年テキスト依存話者検証(TdSV)チャレンジのためのシステムを提案する。
このシステムは0.0461の最小検出コスト関数(MinDCF)と1.3\%の等誤差率(EER)を達成した。
我々のアプローチは、既存の最先端ニューラルネットワークであるResNet-TDNNとNeXt-TDNNの適応に重点を置いていた。
この戦略は、当時の限られたチャレンジ期間と利用可能なリソースのために選ばれた。
さらに、我々は、適応を改善し、アンサンブルアプローチを強化するために、チャレンジデータセットに特化して訓練された軽量でリソース効率の良いモデルであるEfficientNet-A0を設計した。
我々のシステムは、高度なニューラルアーキテクチャ、広範なデータ拡張、最適化されたハイパーパラメータを組み合わせる。
これらのコンポーネントは、テキスト依存話者検証において高い性能を達成するのに役立った。
また,複数モデルのアンサンブル学習が話者とフレーズの検証に有効であることを示す。
関連論文リスト
- DIN-CTS: Low-Complexity Depthwise-Inception Neural Network with Contrastive Training Strategy for Deepfake Speech Detection [35.92231189181208]
コントラスト学習戦略(CTS)を訓練した低複雑さDIN(Depthwise-Inception Network)に基づくディープフェイク音声検出(DSD)のためのディープニューラルネットワークアプローチを提案する。
提案システムを評価するため,ASVspoof 2019 LAのベンチマークデータセットについて広範な実験を行った。
提案システムは,ASVspoof 2019 LAチャレンジにおけるシングルシステム提案よりも優れており,リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2025-02-27T16:09:04Z) - The SVASR System for Text-dependent Speaker Verification (TdSV) AAIC Challenge 2024 [0.0]
提案システムでは,音声内容の検証にFast-Conformer-based ASRモジュールが組み込まれている。
本稿では,wav2vec-BERTモデルから抽出した話者埋め込みとReNetモデルを組み合わせた特徴融合手法を提案する。
論文 参考訳(メタデータ) (2024-11-25T10:53:45Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Integrating Text Inputs For Training and Adapting RNN Transducer ASR
Models [29.256853083988634]
本稿では,E2E ASRモデルのための新しいテキスト表現とトレーニングフレームワークを提案する。
トレーニングされたRNNトランスデューサ(RNN-T)モデルの内部LMコンポーネントは、テキストのみのデータに効果的に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-26T15:03:09Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - A Full Text-Dependent End to End Mispronunciation Detection and
Diagnosis with Easy Data Augmentation Techniques [28.59181595057581]
sed-mddとの違いである新しいテキスト依存モデルを提案する。
本論文では,モデルが誤発音音素を捕捉する能力を効果的に向上する3つの単純なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T03:11:41Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。