論文の概要: The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022
- arxiv url: http://arxiv.org/abs/2209.09010v2
- Date: Tue, 20 Sep 2022 12:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:43:10.255160
- Title: The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022
- Title(参考訳): VoxCeleb Speaker Recognition Challenge 2022におけるRoyalflushシステム
- Authors: Jingguang Tian, Xinhui Hu, Xinkang Xu
- Abstract要約: VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。
トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。
トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
- 参考スコア(独自算出の注目度): 4.022057598291766
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this technical report, we describe the Royalflush submissions for the
VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22). Our submissions
contain track 1, which is for supervised speaker verification and track 3,
which is for semi-supervised speaker verification. For track 1, we develop a
powerful U-Net-based speaker embedding extractor with a symmetric architecture.
The proposed system achieves 2.06% in EER and 0.1293 in MinDCF on the
validation set. Compared with the state-of-the-art ECAPA-TDNN, it obtains a
relative improvement of 20.7% in EER and 22.70% in MinDCF. For track 3, we
employ the joint training of source domain supervision and target domain
self-supervision to get a speaker embedding extractor. The subsequent
clustering process can obtain target domain pseudo-speaker labels. We adapt the
speaker embedding extractor using all source and target domain data in a
supervised manner, where it can fully leverage both domain information.
Moreover, clustering and supervised domain adaptation can be repeated until the
performance converges on the validation set. Our final submission is a fusion
of 10 models and achieves 7.75% EER and 0.3517 MinDCF on the validation set.
- Abstract(参考訳): 本稿では,VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。
提案には,教師付き話者照合用トラック1と,半教師付き話者検証用トラック3が含まれている。
トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。
提案方式はEERが2.06%,MinDCFが0.1293である。
最先端のECAPA-TDNNと比較して、EERの20.7%、MinDCFの22.70%の相対的な改善が得られる。
トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
その後のクラスタリングプロセスは、ターゲットドメインの擬似話者ラベルを取得できる。
話者埋め込み抽出器を全ソースおよび対象ドメインデータを用いて教師付き方式で適用し,両ドメイン情報を完全に活用する。
さらに、クラスタリングと教師付きドメイン適応は、性能が検証セットに収束するまで繰り返すことができる。
最終的な提出は10モデルの融合であり、検証セット上で7.75% EERと0.3517 MinDCFを達成する。
関連論文リスト
- Exploring WavLM Back-ends for Speech Spoofing and Deepfake Detection [0.0]
ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - オープンコンディションはスタンドアロンのディープフェイク(bonafide vs spoof)検出タスクで構成される。
我々は、事前訓練されたWavLMをフロントエンドモデルとして利用し、その表現を異なるバックエンド技術でプールする。
本システムでは,0.0937 minDCF,3.42% EER,0.1927 Cllr,0.1375 actDCFを実現している。
論文 参考訳(メタデータ) (2024-09-08T08:54:36Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition [57.31233839489528]
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合する手法について検討する。
論文 参考訳(メタデータ) (2023-02-28T13:39:17Z) - The SpeakIn Speaker Verification System for Far-Field Speaker
Verification Challenge 2022 [15.453882034529913]
本稿では,Far-Field Speaker Verification Challenge 2022(FFSVC2022)に提出された話者検証システムについて述べる。
ResNetベースのアーキテクチャとRepVGGベースのアーキテクチャは、この挑戦のために開発された。
このアプローチは優れたパフォーマンスをもたらし、両方の課題において第1位にランクインします。
論文 参考訳(メタデータ) (2022-09-23T14:51:55Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Robust Speaker Recognition with Transformers Using wav2vec 2.0 [7.419725234099729]
本稿では,話者認識タスクにwav2vec 2.0深層音声表現を用いることについて検討する。
コントラスト予測符号化事前学習方式は, ラベルなしデータのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2022-03-28T20:59:58Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - The xx205 System for the VoxCeleb Speaker Recognition Challenge 2020 [2.7920304852537536]
本報告では、VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020の第1および第2トラックに提出されたシステムについて述べる。
EERは3.808%$、MinDCFは0.1958$、EERは3.798%$、MinDCFは0.1942$である。
論文 参考訳(メタデータ) (2020-10-31T06:36:26Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。