論文の概要: UIAI System for Short-Duration Speaker Verification Challenge 2020
- arxiv url: http://arxiv.org/abs/2007.13118v1
- Date: Sun, 26 Jul 2020 12:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 20:17:19.706344
- Title: UIAI System for Short-Duration Speaker Verification Challenge 2020
- Title(参考訳): 短距離話者検証のためのUIAIシステム
- Authors: Md Sahidullah, Achintya Kumar Sarkar, Ville Vestman, Xuechen Liu,
Romain Serizel, Tomi Kinnunen, Zheng-Hua Tan, Emmanuel Vincent
- Abstract要約: 本稿では,ショートデュレーション話者検証(SdSV)のためのUIAIエントリのシステム記述について述べる。
自動話者検証(ASV)と発話検証(UV)の異なる特徴抽出とモデリング手法について検討する。
この課題に対する主な提案は、7つのサブシステムの融合であり、これは0.072の正規化最小検出コスト関数(minDCF)と2.14%の等価エラー率(EER)をもたらす。
- 参考スコア(独自算出の注目度): 45.816875527541065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the system description of the UIAI entry for the
short-duration speaker verification (SdSV) challenge 2020. Our focus is on Task
1 dedicated to text-dependent speaker verification. We investigate different
feature extraction and modeling approaches for automatic speaker verification
(ASV) and utterance verification (UV). We have also studied different fusion
strategies for combining UV and ASV modules. Our primary submission to the
challenge is the fusion of seven subsystems which yields a normalized minimum
detection cost function (minDCF) of 0.072 and an equal error rate (EER) of
2.14% on the evaluation set. The single system consisting of a pass-phrase
identification based model with phone-discriminative bottleneck features gives
a normalized minDCF of 0.118 and achieves 19% relative improvement over the
state-of-the-art challenge baseline.
- Abstract(参考訳): 本稿では,sdsv(short-duration speaker verification)チャレンジ2020におけるuiaiエントリのシステム記述について述べる。
テキスト依存型話者検証専用のタスク1に重点を置いています。
自動話者検証(ASV)と発話検証(UV)の異なる特徴抽出とモデリング手法について検討する。
また,uvモジュールとasvモジュールの融合戦略についても検討した。
この課題の主な提案は、7つのサブシステムを融合させることで、最小検出コスト関数mindcf( normalized minimum detection cost function)は0.072、eer(equal error rate)は2.14%になる。
音声識別ボトルネック機能付きパスフレーズ識別モデルからなる単一システムは、正規化されたminDCFが0.118となり、最先端の課題ベースラインよりも19%の相対的な改善が達成される。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition [68.70787870401159]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - An Inception-Residual-Based Architecture with Multi-Objective Loss for
Detecting Respiratory Anomalies [10.29057783664056]
本稿では,呼吸音の録音から異常を検出するための深層学習システムを提案する。
本システムでは,呼吸異常を分類するために,インセプションをベースとしたバックボーンモデルとマルチヘッドアテンションと多目的損失を統合した。
論文 参考訳(メタデータ) (2023-03-07T18:10:05Z) - Audio Anti-spoofing Using a Simple Attention Module and Joint
Optimization Based on Additive Angular Margin Loss and Meta-learning [43.519717601587864]
本研究では,畳み込み層における特徴写像に対する3次元の注意重みを推定するための単純な注意モジュールを提案する。
2進分類のための重み付き加法的角縁損失に基づく共同最適化手法を提案する。
提案手法は, プールEERが0.99%, min t-DCFが0.0289。
論文 参考訳(メタデータ) (2022-11-17T21:25:29Z) - Tackling Spoofing-Aware Speaker Verification with Multi-Model Fusion [88.34134732217416]
この研究は、融合に基づくSASVソリューションに焦点を当て、複数の最先端 ASV と CM モデルのパワーを利用するマルチモデル融合フレームワークを提案する。
提案したフレームワークはSASV-EERを8.75%から1.17%に大幅に改善している。
論文 参考訳(メタデータ) (2022-06-18T06:41:06Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker
Diarisation Challenge [6.6238321827660345]
本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。
我々のダイアリゼーションシステムは、入力音声信号のフロントエンドとして、よく訓練されたニューラルネットワークに基づく音声強調モデルから成り立っている。
論文 参考訳(メタデータ) (2020-10-22T12:42:07Z) - Dynamically Mitigating Data Discrepancy with Balanced Focal Loss for
Replay Attack Detection [10.851348154870852]
我々は、アンチ・スプーフィングにおいては、モデリングプロセスにおいて容易に分類されたサンプルよりも識別不能なサンプルに注意が必要であると論じている。
本研究は, サンプル自体の特性に基づいて, 損失を動的にスケールする訓練目的として, バランスの取れた焦点損失関数を活用することを提案する。
相補的な特徴により、3種類の機能しか持たない融合系は他のシステムよりも22.5%、min-tDCFが7%、EERが7%向上する。
論文 参考訳(メタデータ) (2020-06-25T17:06:47Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。