論文の概要: UNISOUND System for VoxCeleb Speaker Recognition Challenge 2023
- arxiv url: http://arxiv.org/abs/2308.12526v1
- Date: Thu, 24 Aug 2023 03:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 15:37:00.312364
- Title: UNISOUND System for VoxCeleb Speaker Recognition Challenge 2023
- Title(参考訳): UISOUND System for VoxCeleb Speaker Recognition Challenge 2023 (英語)
- Authors: Yu Zheng, Yajun Zhang, Chuanying Niu, Yibin Zhan, Yanhua Long,
Dongxing Xu
- Abstract要約: 本報告では、VoxCeleb Speaker Recognition Challenge 2023(VoxSRC 2023)のトラック1とトラック2のUNISOUNDによる提出について述べる。
同じシステムをトラック1とトラック2に送信し、VoxCeleb2-devでのみトレーニングする。
一致度測定係数(CMF)による類似度スコアにおける音声出力の安定性を利用した整合性を考慮したスコア校正法を提案する。
- 参考スコア(独自算出の注目度): 11.338256222745429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes the UNISOUND submission for Track1 and Track2 of
VoxCeleb Speaker Recognition Challenge 2023 (VoxSRC 2023). We submit the same
system on Track 1 and Track 2, which is trained with only VoxCeleb2-dev.
Large-scale ResNet and RepVGG architectures are developed for the challenge. We
propose a consistency-aware score calibration method, which leverages the
stability of audio voiceprints in similarity score by a Consistency Measure
Factor (CMF). CMF brings a huge performance boost in this challenge. Our final
system is a fusion of six models and achieves the first place in Track 1 and
second place in Track 2 of VoxSRC 2023. The minDCF of our submission is 0.0855
and the EER is 1.5880%.
- Abstract(参考訳): 本報告では、VoxCeleb Speaker Recognition Challenge 2023(VoxSRC 2023)のトラック1とトラック2のUNISOUND申請について述べる。
同じシステムをトラック1とトラック2に送信し、VoxCeleb2-devでのみトレーニングする。
大規模なResNetとRepVGGアーキテクチャがこの課題のために開発されている。
一致度測定係数(CMF)による類似度スコアにおける音声出力の安定性を利用した整合性を考慮したスコアキャリブレーション手法を提案する。
CMFはこの課題で大きなパフォーマンス向上をもたらします。
我々の最終システムは6つのモデルの融合であり、トラック1では1位、トラック2ではVoxSRC 2023で2位となる。
私たちの申請の minDCF は 0.0855 であり、EER は 1.5880% である。
関連論文リスト
- The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge [12.862628838633396]
本稿では,ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge 2024(ICAGC)に提出されたNPU-HWCシステムについて述べる。
本システムは,トラック1の音声生成装置とトラック2の音声生成装置の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2024-10-31T10:58:59Z) - The Ninth NTIRE 2024 Efficient Super-Resolution Challenge Report [180.94772271910315]
本稿は,NTIRE 2024の課題を概観し,効率的な単一画像超解像(ESR)ソリューションに焦点をあてる。
主な目的は、ランタイム、パラメータ、FLOPなどの様々な側面を最適化するネットワークを開発することである。
このチャレンジには262人の登録参加者が参加し、34チームが有効な応募を行った。
論文 参考訳(メタデータ) (2024-04-16T07:26:20Z) - ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech
Recognition Challenge [94.13624830833314]
この課題は、新しいエネルギー車両内で記録された100時間以上のマルチチャネル音声データを収集する。
1位チームのUSTCiflytekはASRトラックで13.16%のCER、ASDRトラックで21.48%のcpCERを達成した。
論文 参考訳(メタデータ) (2024-01-07T12:51:42Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - ChinaTelecom System Description to VoxCeleb Speaker Recognition
Challenge 2023 [7.764294108093176]
我々のシステムは、VoxCeleb2でのみトレーニングされたResNetの亜種で構成されており、後にパフォーマンス向上のために融合された。
最終的に、minDCFは0.1066、EERは1.980%に達した。
論文 参考訳(メタデータ) (2023-08-16T07:21:01Z) - Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z) - The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 [4.022057598291766]
VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。
トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。
トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
論文 参考訳(メタデータ) (2022-09-19T13:35:36Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - NTIRE 2021 Multi-modal Aerial View Object Classification Challenge [88.89190054948325]
CVPR の NTIRE 2021 ワークショップと共同で,MAVOC (Multi-modal Aerial View Object Classification) の最初の挑戦を紹介した。
この課題は、EOとSAR画像を用いた2つの異なるトラックで構成されている。
本コンペティションで提案した最上位の手法について検討し,その成果を目視テストセットで評価する。
論文 参考訳(メタデータ) (2021-07-02T16:55:08Z) - The AS-NU System for the M2VoC Challenge [49.12981125333458]
M2VoC(MultiSpeaker Multi-Style Voice Cloning Challenge)における2トラックのAS-NUシステムについて述べる。
第1トラックは音声クローニングに100件のターゲット発話を使用することにフォーカスし、第2トラックは音声クローニングにわずか5件のターゲット発話を使用することにフォーカスした。
第2トラックにおけるデータ不足のため,ttsシステムの訓練データから,目標話者に最も近い話者を選択し,話者の発話と与えられた5つの目標発話を用いてモデルを微調整した。
論文 参考訳(メタデータ) (2021-04-07T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。