論文の概要: ChinaTelecom System Description to VoxCeleb Speaker Recognition
Challenge 2023
- arxiv url: http://arxiv.org/abs/2308.08181v1
- Date: Wed, 16 Aug 2023 07:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 14:33:57.318001
- Title: ChinaTelecom System Description to VoxCeleb Speaker Recognition
Challenge 2023
- Title(参考訳): 中国テレコム「VoxCeleb Speaker Recognition Challenge 2023」
- Authors: Mengjie Du and Xiang Fang and Jie Li
- Abstract要約: 我々のシステムは、VoxCeleb2でのみトレーニングされたResNetの亜種で構成されており、後にパフォーマンス向上のために融合された。
最終的に、minDCFは0.1066、EERは1.980%に達した。
- 参考スコア(独自算出の注目度): 7.764294108093176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report describes ChinaTelecom system for Track 1 (closed) of
the VoxCeleb2023 Speaker Recognition Challenge (VoxSRC 2023). Our system
consists of several ResNet variants trained only on VoxCeleb2, which were fused
for better performance later. Score calibration was also applied for each
variant and the fused system. The final submission achieved minDCF of 0.1066
and EER of 1.980%.
- Abstract(参考訳): この技術報告では、VoxCeleb2023 Speaker Recognition Challenge (VoxSRC 2023)のトラック1のチャイナテレコムシステムについて述べる。
私たちのシステムは、voxceleb2でのみトレーニングされたresnetのいくつかの変種で構成されています。
スコアキャリブレーションは各変種と融合システムにも適用された。
最終的に、minDCFは0.1066、EERは1.980%に達した。
関連論文リスト
- The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023 [67.11294606070278]
本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
論文 参考訳(メタデータ) (2024-01-07T14:20:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - UNISOUND System for VoxCeleb Speaker Recognition Challenge 2023 [11.338256222745429]
本報告では、VoxCeleb Speaker Recognition Challenge 2023(VoxSRC 2023)のトラック1とトラック2のUNISOUNDによる提出について述べる。
同じシステムをトラック1とトラック2に送信し、VoxCeleb2-devでのみトレーニングする。
一致度測定係数(CMF)による類似度スコアにおける音声出力の安定性を利用した整合性を考慮したスコア校正法を提案する。
論文 参考訳(メタデータ) (2023-08-24T03:30:38Z) - VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge [95.6159736804855]
VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22)は、InterSPEECH 2022と共同で開催された。
この課題の目的は、最先端の話者認識システムが「野生」で得られた音声から話者を識別し、分類し、認識できるかどうかを評価することである。
論文 参考訳(メタデータ) (2023-02-20T19:27:14Z) - The Newsbridge -Telecom SudParis VoxCeleb Speaker Recognition Challenge
2022 System Description [0.0]
本稿では,VoxCeleb Speaker Recognition Challenge 2022(VoxSRC 2022)の話者ダイアリゼーショントラックで使用するシステムについて述べる。
我々のソリューションは、複数のシステムの強度を利用する音声活動検出アルゴリズムの新たな組み合わせに基づいて設計されている。
論文 参考訳(メタデータ) (2023-01-17T15:52:39Z) - THUEE system description for NIST 2020 SRE CTS challenge [19.2916501364633]
本稿では,NIST 2020 Speaker Recognition Evaluation (SRE) のためのTHUEEチームのシステム記述について述べる。
この評価では、ResNet74、ResNet152、RepVGG-B2などのサブシステムが話者埋め込み抽出器として開発された。
論文 参考訳(メタデータ) (2022-10-12T12:01:59Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - The Phonexia VoxCeleb Speaker Recognition Challenge 2021 System
Description [1.3687617973585977]
教師なし話者検証トラックにおけるVoxCeleb Speaker Recognition Challenge 2021(VoxSRC-21)のPhonexia提案について述べる。
モーメントコントラスト学習を用いて埋め込み抽出器をブートストラップし,入力増強を唯一の監督源とした。
5種類の埋め込み抽出器のzt正規化コサインスコアを平均化してスコア融合を行った。
論文 参考訳(メタデータ) (2021-09-05T12:10:26Z) - USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。
私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文 参考訳(メタデータ) (2021-03-19T07:00:51Z) - The Hitachi-JHU DIHARD III System: Competitive End-to-End Neural
Diarization and X-Vector Clustering Systems Combined by DOVER-Lap [67.395341302752]
本稿では,第3回DIHARD音声ダイアリゼーションチャレンジに提出された日立-JHUシステムについて詳述する。
このシステムは、2つのxベクターベースのサブシステム、2つのエンドツーエンドのニューラルダイアリゼーションベースのサブシステム、1つのハイブリッドサブシステムという5つのサブシステムのアンサンブル結果を出力する。
論文 参考訳(メタデータ) (2021-02-02T07:30:44Z) - Tongji University Undergraduate Team for the VoxCeleb Speaker
Recognition Challenge2020 [10.836635938778684]
RSBU-CW モジュールを ResNet34 フレームワークに適用し,ネットワークの認知能力を向上させる。
我々は,モデルの性能向上のために,ResNetの2つの変種であるスコア融合とデータ拡張法を訓練した。
論文 参考訳(メタデータ) (2020-10-20T09:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。