論文の概要: The Phonexia VoxCeleb Speaker Recognition Challenge 2021 System
Description
- arxiv url: http://arxiv.org/abs/2109.02052v1
- Date: Sun, 5 Sep 2021 12:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 17:23:24.883529
- Title: The Phonexia VoxCeleb Speaker Recognition Challenge 2021 System
Description
- Title(参考訳): Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description
- Authors: Josef Slav\'i\v{c}ek and Albert Swart and Michal Kl\v{c}o and Niko
Br\"ummer
- Abstract要約: 教師なし話者検証トラックにおけるVoxCeleb Speaker Recognition Challenge 2021(VoxSRC-21)のPhonexia提案について述べる。
モーメントコントラスト学習を用いて埋め込み抽出器をブートストラップし,入力増強を唯一の監督源とした。
5種類の埋め込み抽出器のzt正規化コサインスコアを平均化してスコア融合を行った。
- 参考スコア(独自算出の注目度): 1.3687617973585977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe the Phonexia submission for the VoxCeleb Speaker Recognition
Challenge 2021 (VoxSRC-21) in the unsupervised speaker verification track. Our
solution was very similar to IDLab's winning submission for VoxSRC-20. An
embedding extractor was bootstrapped using momentum contrastive learning, with
input augmentations as the only source of supervision. This was followed by
several iterations of clustering to assign pseudo-speaker labels that were then
used for supervised embedding extractor training. Finally, a score fusion was
done, by averaging the zt-normalized cosine scores of five different embedding
extractors. We briefly also describe unsuccessful solutions involving i-vectors
instead of DNN embeddings and PLDA instead of cosine scoring.
- Abstract(参考訳): 教師なし話者検証トラックにおけるVoxCeleb Speaker Recognition Challenge 2021(VoxSRC-21)のPhonexia提案について述べる。
私たちのソリューションは、IDLabがVoxSRC-20で勝ったのと非常によく似ています。
モーメントコントラスト学習を用いて埋め込み抽出器をブートストラップし,入力増強を唯一の監督源とした。
続いて、疑似話者ラベルを割り当てるクラスタリングが数回実施され、教師付きインクリプタトレーニングに使用された。
最後に、5種類の埋め込み抽出器のzt正規化コサインスコアを平均化してスコア融合を行った。
また,コサインスコアではなく,DNN埋め込みではなくiベクターを組み込んだ解やPLDAについても簡潔に述べる。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - The Newsbridge -Telecom SudParis VoxCeleb Speaker Recognition Challenge
2022 System Description [0.0]
本稿では,VoxCeleb Speaker Recognition Challenge 2022(VoxSRC 2022)の話者ダイアリゼーショントラックで使用するシステムについて述べる。
我々のソリューションは、複数のシステムの強度を利用する音声活動検出アルゴリズムの新たな組み合わせに基づいて設計されている。
論文 参考訳(メタデータ) (2023-01-17T15:52:39Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - The JHU submission to VoxSRC-21: Track 3 [31.804401484416452]
本報告では、Voxceleb Speaker Recognition Challenge 2021 Track 3に提出されたジョンズ・ホプキンス大学話者認識システムについて述べる。
私たちの全体的なトレーニングプロセスは、昨年のVoxSRC 2020チャレンジで提案されたものと似ています。
これは、Voxceleb1 test o、VoxSRC-21 Validation、テストトライアルにおいて、EER(%)の1.89、6.50、および6.89をそれぞれ示す、最も優れた提案モデルである。
論文 参考訳(メタデータ) (2021-09-28T01:30:10Z) - Query Expansion System for the VoxCeleb Speaker Recognition Challenge
2020 [9.908371711364717]
本稿では,VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020への応募について述べる。
1つは、話者検証にクエリ拡張を適用することであり、これは研究のベースラインと比較して大きな進歩を示している。
もう1つは、確率線形判別分析(PLDA)スコアとResNetスコアを組み合わせることである。
論文 参考訳(メタデータ) (2020-11-04T05:24:18Z) - The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker
Diarisation Challenge [6.6238321827660345]
本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。
我々のダイアリゼーションシステムは、入力音声信号のフロントエンドとして、よく訓練されたニューラルネットワークに基づく音声強調モデルから成り立っている。
論文 参考訳(メタデータ) (2020-10-22T12:42:07Z) - Exploring the Use of an Unsupervised Autoregressive Model as a Shared
Encoder for Text-Dependent Speaker Verification [22.894402178709136]
本稿では,タスク固有のデコーダを用いた共有エンコーダを用いたテキスト依存型自動話者検証(TD-ASV)を提案する。
提案手法は,大規模でラベルのないデータリッチなドメインから活用でき,下流タスクとは無関係に音声パターンを学習できることを示す。
論文 参考訳(メタデータ) (2020-08-08T22:47:10Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。