論文の概要: NPLDA: A Deep Neural PLDA Model for Speaker Verification
- arxiv url: http://arxiv.org/abs/2002.03562v2
- Date: Sun, 24 May 2020 05:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:07:53.124682
- Title: NPLDA: A Deep Neural PLDA Model for Speaker Verification
- Title(参考訳): NPLDA:話者検証のためのディープニューラルネットワークPLDAモデル
- Authors: Shreyas Ramoji, Prashant Krishnan, Sriram Ganapathy
- Abstract要約: 話者認識におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
提案モデルはニューラルPLDA(NPLDA)と呼ばれ,生成PLDAモデルパラメータを用いて最適化される。
実験では,提案した損失関数を用いて最適化されたNPLDAモデルは,最先端のPLDAベース話者検証システムよりも大幅に改善される。
- 参考スコア(独自算出の注目度): 40.842070706362534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-art approach for speaker verification consists of a neural
network based embedding extractor along with a backend generative model such as
the Probabilistic Linear Discriminant Analysis (PLDA). In this work, we propose
a neural network approach for backend modeling in speaker recognition. The
likelihood ratio score of the generative PLDA model is posed as a
discriminative similarity function and the learnable parameters of the score
function are optimized using a verification cost. The proposed model, termed as
neural PLDA (NPLDA), is initialized using the generative PLDA model parameters.
The loss function for the NPLDA model is an approximation of the minimum
detection cost function (DCF). The speaker recognition experiments using the
NPLDA model are performed on the speaker verificiation task in the VOiCES
datasets as well as the SITW challenge dataset. In these experiments, the NPLDA
model optimized using the proposed loss function improves significantly over
the state-of-art PLDA based speaker verification system.
- Abstract(参考訳): 話者検証のための最先端のアプローチは、ニューラルネットワークベースの埋め込み抽出器と、確率線形判別分析(PLDA)のようなバックエンド生成モデルで構成される。
本稿では,話者認識におけるバックエンドモデリングのためのニューラルネットワーク手法を提案する。
生成PLDAモデルの確率比スコアを識別類似度関数として設定し、検証コストを用いてスコア関数の学習可能なパラメータを最適化する。
提案モデルはニューラルPLDA(NPLDA)と呼ばれ,生成PLDAモデルパラメータを用いて初期化される。
npldaモデルの損失関数は最小検出コスト関数 (minimum detection cost function, dcf) の近似である。
VOiCESデータセットとSITWチャレンジデータセットの話者検証タスクにおいて,NPLDAモデルを用いた話者認識実験を行った。
これらの実験では,提案した損失関数を用いて最適化されたNPLDAモデルは,最先端のPLDAベース話者検証システムよりも大幅に改善される。
関連論文リスト
- Deep Networks as Denoising Algorithms: Sample-Efficient Learning of
Diffusion Models in High-Dimensional Graphical Models [22.353510613540564]
生成モデルにおけるディープニューラルネットワークによるスコア関数の近似効率について検討する。
楽譜関数はしばしば変分推論法を用いてグラフィカルモデルでよく近似される。
深層ニューラルネットワークによってスコア関数が学習されるとき,拡散に基づく生成モデルに縛られた効率的なサンプル複雑性を提供する。
論文 参考訳(メタデータ) (2023-09-20T15:51:10Z) - Functional Neural Networks: Shift invariant models for functional data
with applications to EEG classification [0.0]
我々は、データのスムーズさを保ちながら不変な新しいタイプのニューラルネットワークを導入する:関数型ニューラルネットワーク(FNN)
そこで我々は,多層パーセプトロンと畳み込みニューラルネットワークを機能データに拡張するために,機能データ分析(FDA)の手法を用いる。
脳波(EEG)データの分類にFNNをうまく利用し,FDAのベンチマークモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-01-14T09:41:21Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Parameter estimation for WMTI-Watson model of white matter using
encoder-decoder recurrent neural network [0.0]
本研究では,ラットおよびヒト脳のデータセット上でのNLLS,RNN法および多層パーセプトロン(MLP)の性能を評価する。
提案手法は,NLLSよりも計算時間を大幅に短縮できるという利点を示した。
論文 参考訳(メタデータ) (2022-03-01T16:33:15Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。
提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:54:54Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Pairwise Discriminative Neural PLDA for Speaker Verification [41.76303371621405]
本稿では,話者検証作業のためのPairwise Neural Discriminative Modelを提案する。
我々は,話者の検証損失を近似する微分可能なコスト関数を構築した。
NIST SRE 2018の開発および評価データセット上で実験が実施されている。
論文 参考訳(メタデータ) (2020-01-20T09:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。