論文の概要: Pairwise Discriminative Neural PLDA for Speaker Verification
- arxiv url: http://arxiv.org/abs/2001.07034v2
- Date: Fri, 7 Feb 2020 09:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:48:37.395653
- Title: Pairwise Discriminative Neural PLDA for Speaker Verification
- Title(参考訳): 話者照合のためのペアワイズ判別ニューラルplda
- Authors: Shreyas Ramoji, Prashant Krishnan V, Prachi Singh, Sriram Ganapathy
- Abstract要約: 本稿では,話者検証作業のためのPairwise Neural Discriminative Modelを提案する。
我々は,話者の検証損失を近似する微分可能なコスト関数を構築した。
NIST SRE 2018の開発および評価データセット上で実験が実施されている。
- 参考スコア(独自算出の注目度): 41.76303371621405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-art approach to speaker verification involves the extraction of
discriminative embeddings like x-vectors followed by a generative model
back-end using a probabilistic linear discriminant analysis (PLDA). In this
paper, we propose a Pairwise neural discriminative model for the task of
speaker verification which operates on a pair of speaker embeddings such as
x-vectors/i-vectors and outputs a score that can be considered as a scaled
log-likelihood ratio. We construct a differentiable cost function which
approximates speaker verification loss, namely the minimum detection cost. The
pre-processing steps of linear discriminant analysis (LDA), unit length
normalization and within class covariance normalization are all modeled as
layers of a neural model and the speaker verification cost functions can be
back-propagated through these layers during training. We also explore
regularization techniques to prevent overfitting, which is a major concern in
using discriminative back-end models for verification tasks. The experiments
are performed on the NIST SRE 2018 development and evaluation datasets. We
observe average relative improvements of 8% in CMN2 condition and 30% in VAST
condition over the PLDA baseline system.
- Abstract(参考訳): 話者検証に対する最先端のアプローチは、x-ベクトルのような識別埋め込みの抽出と、確率線形判別分析(plda)を用いた生成モデルバックエンドである。
本稿では,x-vectors/i-vectorsなどの一対の話者埋め込み上で動作し,スケールドログ類似度として考えられるスコアを出力する,話者検証タスクのためのペアワイズニューラルネットワーク識別モデルを提案する。
我々は、話者検証損失、すなわち最小検出コストを近似する微分可能なコスト関数を構築する。
線形判別分析(lda)、単位長正規化、クラス内共分散正規化の前処理ステップはすべて神経モデルの層としてモデル化され、これらの層を通して話者検証コスト関数をバックプロパゲーションすることができる。
また,検証タスクに対する識別的バックエンドモデルの使用において重要な関心事となる,過剰フィッティング防止のための正規化手法についても検討する。
実験はNIST SRE 2018の開発と評価データセット上で実施されている。
CMN2条件では8%,VAST条件では30%の相対的改善がPLDAベースラインシステム上で観測された。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - A Speaker Verification Backend with Robust Performance across Conditions [28.64769660252556]
話者検証の標準的な方法は、ディープニューラルネットワークを用いた話者埋め込みを抽出することである。
この方法は、キャリブレーションモデルのトレーニングに使用されるものと異なる条件でうまく動作しないシステムをもたらすことが知られている。
本稿では,入力の条件に適応するために,時間などの情報を自動的に抽出するアダプティブキャリブレータを導入することで,標準バックエンドを変更することを提案する。
論文 参考訳(メタデータ) (2021-02-02T21:27:52Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。
提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:54:54Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - NPLDA: A Deep Neural PLDA Model for Speaker Verification [40.842070706362534]
話者認識におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
提案モデルはニューラルPLDA(NPLDA)と呼ばれ,生成PLDAモデルパラメータを用いて最適化される。
実験では,提案した損失関数を用いて最適化されたNPLDAモデルは,最先端のPLDAベース話者検証システムよりも大幅に改善される。
論文 参考訳(メタデータ) (2020-02-10T05:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。