論文の概要: Remarks on Optimal Scores for Speaker Recognition
- arxiv url: http://arxiv.org/abs/2010.04862v2
- Date: Fri, 30 Oct 2020 03:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 22:17:20.389931
- Title: Remarks on Optimal Scores for Speaker Recognition
- Title(参考訳): 話者認識のための最適スコアについて
- Authors: Dong Wang
- Abstract要約: まず,話者認識のための最適スコアの理論を確立する。
我々はNLスコアの諸特性を議論し、NLスコアの特性を実証するための簡単なシミュレーション実験を行う。
- 参考スコア(独自算出の注目度): 7.581956025432869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article, we first establish the theory of optimal scores for speaker
recognition. Our analysis shows that the minimum Bayes risk (MBR) decisions for
both the speaker identification and speaker verification tasks can be based on
a normalized likelihood (NL). When the underlying generative model is a linear
Gaussian, the NL score is mathematically equivalent to the PLDA likelihood
ratio, and the empirical scores based on cosine distance and Euclidean distance
can be seen as approximations of this linear Gaussian NL score under some
conditions. We discuss a number of properties of the NL score and perform a
simple simulation experiment to demonstrate the properties of the NL score.
- Abstract(参考訳): 本稿では,まず,話者認識のための最適スコアの理論を定式化する。
本分析により,話者識別タスクと話者検証タスクの最小ベイズリスク (MBR) は正規化可能性 (NL) に基づいて決定できることが示された。
基底生成モデルが線型ガウスであれば、NLスコアはPLDA確率比と数学的に等価であり、ある条件下では、コサイン距離とユークリッド距離に基づく経験的スコアは、この線形ガウスNLスコアの近似として見ることができる。
我々はNLスコアの諸特性について議論し、NLスコアの特性を実証するための簡単なシミュレーション実験を行う。
関連論文リスト
- Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Spectral Ranking Inferences based on General Multiway Comparisons [7.222667862159246]
本研究では,2段階のスペクトル法により,最大近似エスタと同じバニラ効率が得られることを示す。
有効な2サンプルランク試験法が提案されたのはこれが初めてである。
論文 参考訳(メタデータ) (2023-08-05T16:31:32Z) - Probabilistic Back-ends for Online Speaker Recognition and Clustering [31.493856217110356]
本稿では,オンライン話者クラスタリングの課題において自然に発生する多言語話者認識に焦点を当てた。
一般的なコサインスコアは, 校正度が低かったり, 受講者の発話が多様であったりする。
確率線形判別分析(PLDA)の極端に制約されたバージョンに基づくコサインスコアの簡易な置き換えを提案する。
論文 参考訳(メタデータ) (2023-02-19T09:48:26Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Optimizing ROC Curves with a Sort-Based Surrogate Loss Function for
Binary Classification and Changepoint Detection [1.332560004325655]
我々は、Under Min(FP, FN) の略である AUM と呼ばれる新しい凸損失関数を提案する。
新たなAUM学習により,AUCが向上し,従来のベースラインに匹敵する結果が得られた。
論文 参考訳(メタデータ) (2021-07-02T21:21:19Z) - Score Matched Conditional Exponential Families for Likelihood-Free
Inference [0.0]
Likelihood-Free Inference (LFI) はモデルからのシミュレーションに依存する。
モデルからパラメータシミュレーションペアを観測に基づいて独立に生成する。
重みをスコアマッチングで調整したニューラルネットワークを用いて,条件付き指数関数的家族度近似を学習する。
論文 参考訳(メタデータ) (2020-12-20T11:57:30Z) - Sinkhorn Natural Gradient for Generative Models [125.89871274202439]
本研究では,シンクホーンの発散による確率空間上の最も急降下法として機能するシンクホーン自然勾配(SiNG)アルゴリズムを提案する。
本稿では,SiNG の主要成分であるシンクホーン情報行列 (SIM) が明示的な表現を持ち,対数的スケールの複雑さを正確に評価できることを示す。
本実験では,SiNGと最先端のSGD型解法を定量的に比較し,その有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-11-09T02:51:17Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - NPLDA: A Deep Neural PLDA Model for Speaker Verification [40.842070706362534]
話者認識におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
提案モデルはニューラルPLDA(NPLDA)と呼ばれ,生成PLDAモデルパラメータを用いて最適化される。
実験では,提案した損失関数を用いて最適化されたNPLDAモデルは,最先端のPLDAベース話者検証システムよりも大幅に改善される。
論文 参考訳(メタデータ) (2020-02-10T05:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。