論文の概要: UIAI System for Short-Duration Speaker Verification Challenge 2020
- arxiv url: http://arxiv.org/abs/2007.13118v1
- Date: Sun, 26 Jul 2020 12:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 20:17:19.706344
- Title: UIAI System for Short-Duration Speaker Verification Challenge 2020
- Title(参考訳): 短距離話者検証のためのUIAIシステム
- Authors: Md Sahidullah, Achintya Kumar Sarkar, Ville Vestman, Xuechen Liu,
Romain Serizel, Tomi Kinnunen, Zheng-Hua Tan, Emmanuel Vincent
- Abstract要約: 本稿では,ショートデュレーション話者検証(SdSV)のためのUIAIエントリのシステム記述について述べる。
自動話者検証(ASV)と発話検証(UV)の異なる特徴抽出とモデリング手法について検討する。
この課題に対する主な提案は、7つのサブシステムの融合であり、これは0.072の正規化最小検出コスト関数(minDCF)と2.14%の等価エラー率(EER)をもたらす。
- 参考スコア(独自算出の注目度): 45.816875527541065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the system description of the UIAI entry for the
short-duration speaker verification (SdSV) challenge 2020. Our focus is on Task
1 dedicated to text-dependent speaker verification. We investigate different
feature extraction and modeling approaches for automatic speaker verification
(ASV) and utterance verification (UV). We have also studied different fusion
strategies for combining UV and ASV modules. Our primary submission to the
challenge is the fusion of seven subsystems which yields a normalized minimum
detection cost function (minDCF) of 0.072 and an equal error rate (EER) of
2.14% on the evaluation set. The single system consisting of a pass-phrase
identification based model with phone-discriminative bottleneck features gives
a normalized minDCF of 0.118 and achieves 19% relative improvement over the
state-of-the-art challenge baseline.
- Abstract(参考訳): 本稿では,sdsv(short-duration speaker verification)チャレンジ2020におけるuiaiエントリのシステム記述について述べる。
テキスト依存型話者検証専用のタスク1に重点を置いています。
自動話者検証(ASV)と発話検証(UV)の異なる特徴抽出とモデリング手法について検討する。
また,uvモジュールとasvモジュールの融合戦略についても検討した。
この課題の主な提案は、7つのサブシステムを融合させることで、最小検出コスト関数mindcf( normalized minimum detection cost function)は0.072、eer(equal error rate)は2.14%になる。
音声識別ボトルネック機能付きパスフレーズ識別モデルからなる単一システムは、正規化されたminDCFが0.118となり、最先端の課題ベースラインよりも19%の相対的な改善が達成される。
関連論文リスト
- The SVASR System for Text-dependent Speaker Verification (TdSV) AAIC Challenge 2024 [0.0]
提案システムでは,音声内容の検証にFast-Conformer-based ASRモジュールが組み込まれている。
本稿では,wav2vec-BERTモデルから抽出した話者埋め込みとReNetモデルを組み合わせた特徴融合手法を提案する。
論文 参考訳(メタデータ) (2024-11-25T10:53:45Z) - Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - USTC-KXDIGIT System Description for ASVspoof5 Challenge [30.962424920219224]
ASVspoof5 Challenge for Track 1(音声ディープフェイク検出)とTrack 2(音声自動話者検証,SASV)に提出されたUSTC-KXDIGITシステムについて述べる。
トラック1は、潜在的な処理アルゴリズムから様々な技術的品質を示し、オープン条件とクローズ条件の両方を含んでいる。
トラック2では、トラック1からのCMシステムの使用を継続し、CNNベースのASVシステムと融合した。
この手法は閉条件で0.2814 min-aDCF、開条件で0.0756 min-aDCFを達成し、優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-03T08:28:58Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - An Inception-Residual-Based Architecture with Multi-Objective Loss for
Detecting Respiratory Anomalies [10.29057783664056]
本稿では,呼吸音の録音から異常を検出するための深層学習システムを提案する。
本システムでは,呼吸異常を分類するために,インセプションをベースとしたバックボーンモデルとマルチヘッドアテンションと多目的損失を統合した。
論文 参考訳(メタデータ) (2023-03-07T18:10:05Z) - Tackling Spoofing-Aware Speaker Verification with Multi-Model Fusion [88.34134732217416]
この研究は、融合に基づくSASVソリューションに焦点を当て、複数の最先端 ASV と CM モデルのパワーを利用するマルチモデル融合フレームワークを提案する。
提案したフレームワークはSASV-EERを8.75%から1.17%に大幅に改善している。
論文 参考訳(メタデータ) (2022-06-18T06:41:06Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。