論文の概要: The xx205 System for the VoxCeleb Speaker Recognition Challenge 2020
- arxiv url: http://arxiv.org/abs/2011.00200v1
- Date: Sat, 31 Oct 2020 06:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 05:04:01.855848
- Title: The xx205 System for the VoxCeleb Speaker Recognition Challenge 2020
- Title(参考訳): voxceleb speaker recognition challenge 2020のためのxx205システム
- Authors: Xu Xiang
- Abstract要約: 本報告では、VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020の第1および第2トラックに提出されたシステムについて述べる。
EERは3.808%$、MinDCFは0.1958$、EERは3.798%$、MinDCFは0.1942$である。
- 参考スコア(独自算出の注目度): 2.7920304852537536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes the systems submitted to the first and second tracks of
the VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020, which ranked second
in both tracks. Three key points of the system pipeline are explored: (1)
investigating multiple CNN architectures including ResNet, Res2Net and dual
path network (DPN) to extract the x-vectors, (2) using a composite angular
margin softmax loss to train the speaker models, and (3) applying score
normalization and system fusion to boost the performance. Measured on the
VoxSRC-20 Eval set, the best submitted systems achieve an EER of $3.808\%$ and
a MinDCF of $0.1958$ in the close-condition track 1, and an EER of $3.798\%$
and a MinDCF of $0.1942$ in the open-condition track 2, respectively.
- Abstract(参考訳): 本報告では、voxceleb speaker recognition challenge (voxsrc) 2020の第1および第2トラックに提出されたシステムについて述べる。
システムパイプラインの3つの重要な点は,(1) ResNet, Res2Net, 2重経路ネットワーク(DPN)を含む複数のCNNアーキテクチャを探索してxベクトルを抽出すること,(2)複合角縁ソフトマックス損失を用いて話者モデルを訓練すること,(3)スコア正規化とシステム融合を適用して性能を向上することである。
VoxSRC-20 Evalセットで測定され、最も優れた提出されたシステムは、EERが$3.808\%、MinDCFが$0. 1958$、EERが$3.798\%、MinDCFが$0.1942$となる。
関連論文リスト
- The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023 [67.11294606070278]
本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
論文 参考訳(メタデータ) (2024-01-07T14:20:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - UNISOUND System for VoxCeleb Speaker Recognition Challenge 2023 [11.338256222745429]
本報告では、VoxCeleb Speaker Recognition Challenge 2023(VoxSRC 2023)のトラック1とトラック2のUNISOUNDによる提出について述べる。
同じシステムをトラック1とトラック2に送信し、VoxCeleb2-devでのみトレーニングする。
一致度測定係数(CMF)による類似度スコアにおける音声出力の安定性を利用した整合性を考慮したスコア校正法を提案する。
論文 参考訳(メタデータ) (2023-08-24T03:30:38Z) - The DKU-DUKEECE System for the Manipulation Region Location Task of ADD
2023 [12.69800199589029]
本稿では,Audio Deepfake Detection Challenge (ADD 2023) のトラック2のためのシステムについて紹介する。
我々のトップパフォーマンスソリューションは、82.23%の文精度と60.66%のF1スコアを達成する。
その結果、最終的なABDスコアは0.6713となり、ABD 2023のトラック2で1位を獲得した。
論文 参考訳(メタデータ) (2023-08-20T14:29:04Z) - The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 [4.022057598291766]
VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。
トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。
トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
論文 参考訳(メタデータ) (2022-09-19T13:35:36Z) - Two-pass Decoding and Cross-adaptation Based System Combination of
End-to-end Conformer and Hybrid TDNN ASR Systems [61.90743116707422]
本稿では,ハイブリッドTDNNとConformer E2E ASRシステムのためのマルチパス再構成とクロスアダプティブに基づくシステムの組み合わせについて検討する。
NIST Hub5'00、Rt03、Rt02の評価データに対して、マルチパス再構成を用いて得られた最良の組み合わせシステムにより、統計的に有意な単語誤り率(WER)が2.5%から3.9%の絶対値(22.5%から28.9%の相対値)に低下した。
論文 参考訳(メタデータ) (2022-06-23T10:17:13Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - ShaneRun System Description to VoxCeleb Speaker Recognition Challenge
2020 [3.0712335337791288]
我々は、ShaneRunのチームがVoxCeleb Speaker Recognition Challenge (VoxSRC) 2020に提出されたことを述べる。
我々は、オープンソースのvoxceleb-trainerから参照された話者埋め込みをエンコーダとしてResNet-34を用いて抽出する。
最終提出されたシステムは0.3098 minDCFと5.076 % ERRであり、それぞれ1.3 % minDCFと2.2 % ERRを上回った。
論文 参考訳(メタデータ) (2020-11-03T07:26:21Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。