論文の概要: LEAP System for SRE19 CTS Challenge -- Improvements and Error Analysis
- arxiv url: http://arxiv.org/abs/2002.02735v2
- Date: Sun, 24 May 2020 05:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:08:37.479762
- Title: LEAP System for SRE19 CTS Challenge -- Improvements and Error Analysis
- Title(参考訳): SRE19 CTSチャレンジのためのLEAPシステム-改善とエラー解析
- Authors: Shreyas Ramoji, Prashant Krishnan, Bhargavram Mysore, Prachi Singh,
Sriram Ganapathy
- Abstract要約: CTSチャレンジに提出されたLEAP SREシステムの詳細な説明を提供する。
すべてのシステムは、TDNNベースのxベクトル埋め込みを使用していた。
生成的PLDAモデルとニューラルPLDAモデルの組み合わせにより、SRE評価データセットが大幅に改善された。
- 参考スコア(独自算出の注目度): 36.35711634925221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The NIST Speaker Recognition Evaluation - Conversational Telephone Speech
(CTS) challenge 2019 was an open evaluation for the task of speaker
verification in challenging conditions. In this paper, we provide a detailed
account of the LEAP SRE system submitted to the CTS challenge focusing on the
novel components in the back-end system modeling. All the systems used the
time-delay neural network (TDNN) based x-vector embeddings. The x-vector system
in our SRE19 submission used a large pool of training speakers (about 14k
speakers). Following the x-vector extraction, we explored a neural network
approach to backend score computation that was optimized for a speaker
verification cost. The system combination of generative and neural PLDA models
resulted in significant improvements for the SRE evaluation dataset. We also
found additional gains for the SRE systems based on score normalization and
calibration. Subsequent to the evaluations, we have performed a detailed
analysis of the submitted systems. The analysis revealed the incremental gains
obtained for different training dataset combinations as well as the modeling
methods.
- Abstract(参考訳): NIST Speaker Recognition Evaluation - Conversational Telephone Speech (CTS) Challenge 2019は、困難な状況下で話者検証を行うためのオープンな評価である。
本稿では,バックエンドシステムモデリングにおける新しいコンポーネントに着目したLEAP SREシステムの詳細をCTSチャレンジに提出する。
すべてのシステムは、TDNNベースのxベクトル埋め込みを使用していた。
SRE19のx-vectorシステムは、トレーニング用スピーカー(約14kスピーカー)を大量に使用しました。
xベクトル抽出の後、話者検証コストに最適化されたバックエンドスコア計算へのニューラルネットワークアプローチを探索した。
生成型と神経型pldaモデルのシステム組み合わせは、sre評価データセットの大幅な改善をもたらした。
また,スコアの正規化とキャリブレーションに基づいて,SREシステムのさらなるゲインを得た。
評価の結果,提案システムについて詳細な分析を行った。
分析の結果、異なるトレーニングデータセットの組み合わせとモデリング手法で得られるインクリメンタルなゲインが明らかになった。
関連論文リスト
- X-SepFormer: End-to-end Speaker Extraction Network with Explicit
Optimization on Speaker Confusion [5.4878772986187565]
本稿では、損失スキームとSepFormerのバックボーンを備えたエンドツーエンドのTSEモデルを提案する。
19.4dBのSI-SDRiと3.81のPSSQでは、私たちの最良のシステムは現在のSOTAシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-09T04:00:29Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker
Diarisation Challenge [6.6238321827660345]
本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。
我々のダイアリゼーションシステムは、入力音声信号のフロントエンドとして、よく訓練されたニューラルネットワークに基づく音声強調モデルから成り立っている。
論文 参考訳(メタデータ) (2020-10-22T12:42:07Z) - Formal Verification of Robustness and Resilience of Learning-Enabled State Estimation Systems [20.491263196235376]
我々は,ロボット工学の分野で広く利用されている学習可能な状態推定システム(LE-SESs)に注目した。
LE-SESを形式的検証の観点から検討し,システムモデルの満足度を決定する。
論文 参考訳(メタデータ) (2020-10-16T11:06:50Z) - Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。
提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:54:54Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。