論文の概要: STC speaker recognition systems for the NIST SRE 2021
- arxiv url: http://arxiv.org/abs/2111.02298v1
- Date: Wed, 3 Nov 2021 15:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 14:25:48.495315
- Title: STC speaker recognition systems for the NIST SRE 2021
- Title(参考訳): NIST SRE 2021のためのSTC話者認識システム
- Authors: Anastasia Avdeeva, Aleksei Gusev, Igor Korsunov, Alexander Kozlov,
Galina Lavrentyeva, Sergey Novoselov, Timur Pekhovsky, Andrey Shulipa, Alisa
Vinogradova, Vladimir Volokhov, Evgeny Smirnov, Vasily Galyuk
- Abstract要約: 本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
- 参考スコア(独自算出の注目度): 56.05258832139496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a description of STC Ltd. systems submitted to the NIST
2021 Speaker Recognition Evaluation for both fixed and open training
conditions. These systems consists of a number of diverse subsystems based on
using deep neural networks as feature extractors. During the NIST 2021 SRE
challenge we focused on the training of the state-of-the-art deep speaker
embeddings extractors like ResNets and ECAPA networks by using additive angular
margin based loss functions. Additionally, inspired by the recent success of
the wav2vec 2.0 features in automatic speech recognition we explored the
effectiveness of this approach for the speaker verification filed. According to
our observation the fine-tuning of the pretrained large wav2vec 2.0 model
provides our best performing systems for open track condition. Our experiments
with wav2vec 2.0 based extractors for the fixed condition showed that
unsupervised autoregressive pretraining with Contrastive Predictive Coding loss
opens the door to training powerful transformer-based extractors from raw
speech signals. For video modality we developed our best solution with
RetinaFace face detector and deep ResNet face embeddings extractor trained on
large face image datasets. The final results for primary systems were obtained
by different configurations of subsystems fusion on the score level followed by
score calibration.
- Abstract(参考訳): 本稿では,nist 2021 話者認識評価に提出した stc ltd. システムについて,固定学習条件と開放学習条件の両方について述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
NIST 2021 SREの課題では、加算角マージンに基づく損失関数を用いて、ResNets や ECAPA ネットワークのような最先端の深層話者埋め込み抽出器の訓練に焦点をあてた。
さらに,音声認識におけるwav2vec 2.0の最近の成功に触発されて,提案手法の有効性について検討した。
我々の観測によれば、事前訓練された大型wav2vec 2.0モデルの微調整は、オープントラック条件に最適な性能を提供する。
固定条件に対するwav2vec 2.0ベースの抽出器を用いた実験により、コントラスト予測符号化損失を伴う教師なし自己回帰プリトレーニングが、生の音声信号から強力なトランスフォーマベースの抽出器を訓練するための扉を開くことが分かった。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
一次システムの最終結果は, スコアレベルにおけるサブシステム融合の異なる構成と, スコアキャリブレーションによって得られた。
関連論文リスト
- Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - The THUEE System Description for the IARPA OpenASR21 Challenge [12.458730613670316]
本稿では,IARPAオープン音声認識チャレンジ(OpenASR21)におけるTHUEEチームの音声認識システムについて述べる。
制約条件と制約条件の双方で優れた結果が得られた。
エンコーダ/デコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,特徴抽出器が重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:05Z) - Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection [7.42741711946564]
本研究は,大規模音声データセットに基づいて学習した訓練済みの深層モデルから抽出した音声埋め込みの応用を紹介する。
制限されたSEP-28kデータセットのみに基づいてトレーニングされた標準的な散乱検出システムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。
論文 参考訳(メタデータ) (2022-04-04T15:12:25Z) - Robust Speaker Recognition with Transformers Using wav2vec 2.0 [7.419725234099729]
本稿では,話者認識タスクにwav2vec 2.0深層音声表現を用いることについて検討する。
コントラスト予測符号化事前学習方式は, ラベルなしデータのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2022-03-28T20:59:58Z) - SVSNet: An End-to-end Speaker Voice Similarity Assessment Model [61.3813595968834]
本研究では、自然言語と合成音声の話者音声類似性を評価するために、最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。
Voice Conversion Challenge 2018と2020の実験結果は、SVSNetがよく知られたベースラインシステムより優れていることを示している。
論文 参考訳(メタデータ) (2021-07-20T10:19:46Z) - On Scaling Contrastive Representations for Low-Resource Speech
Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。
極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文 参考訳(メタデータ) (2021-02-01T13:58:02Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。