論文の概要: Deep Speaker Vector Normalization with Maximum Gaussianality Training
- arxiv url: http://arxiv.org/abs/2010.16148v1
- Date: Fri, 30 Oct 2020 09:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 17:38:54.071648
- Title: Deep Speaker Vector Normalization with Maximum Gaussianality Training
- Title(参考訳): 最大ガウス性訓練による深部話者ベクトル正規化
- Authors: Yunqi Cai, Lantian Li, Dong Wang and Andrew Abel
- Abstract要約: ディープスピーカ埋め込みの鍵となる問題は、結果のディープスピーカベクトルが不規則に分散する傾向があることである。
従来の研究では,新しい識別正規化フロー(DNF)モデルに基づく深部正規化手法を提案した。
この顕著な成功にもかかわらず、DNFモデルによって生成される潜伏符号は概して同質でもガウス的でもないことを実証的に見出した。
本稿では,潜在符号のガウス性を直接最大化する最大ガウス性(MG)トレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 13.310988353839237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep speaker embedding represents the state-of-the-art technique for speaker
recognition. A key problem with this approach is that the resulting deep
speaker vectors tend to be irregularly distributed. In previous research, we
proposed a deep normalization approach based on a new discriminative
normalization flow (DNF) model, by which the distributions of individual
speakers are arguably transformed to homogeneous Gaussians. This normalization
was demonstrated to be effective, but despite this remarkable success, we
empirically found that the latent codes produced by the DNF model are generally
neither homogeneous nor Gaussian, although the model has assumed so. In this
paper, we argue that this problem is largely attributed to the
maximum-likelihood (ML) training criterion of the DNF model, which aims to
maximize the likelihood of the observations but not necessarily improve the
Gaussianality of the latent codes. We therefore propose a new Maximum
Gaussianality (MG) training approach that directly maximizes the Gaussianality
of the latent codes. Our experiments on two data sets, SITW and CNCeleb,
demonstrate that our new MG training approach can deliver much better
performance than the previous ML training, and exhibits improved domain
generalizability, particularly with regard to cosine scoring.
- Abstract(参考訳): ディープスピーカー埋め込みは、話者認識のための最先端技術である。
このアプローチの重要な問題は、結果の深い話者ベクトルが不規則に分布する傾向があることである。
これまでの研究では、個々の話者の分布が確実に均質なガウス型に変換される新しい判別正規化フロー(dnf)モデルに基づく深い正規化手法を提案した。
この正規化は有効であることが証明されたが、この顕著な成功にもかかわらず、dnfモデルによって生成される潜在符号は一般に均質でもガウス的でもないことが実証された。
本稿では,この問題はdnfモデルの最大親和性(ml)訓練基準に起因しており,潜在コードのガウス性が必ずしも向上するとは限らないが,観測の可能性を最大化することを目的としている。
そこで我々は,潜在符号のガウス性を直接最大化する,新しい最大ガウス性(MG)トレーニング手法を提案する。
SITWとCNCelebの2つのデータセットに対する実験により、新しいMGトレーニングアプローチが従来のMLトレーニングよりもはるかに優れたパフォーマンスを実現できることが示され、特にコサインスコアに関して、ドメインの一般化性が改善されている。
関連論文リスト
- Hierarchical Gaussian Mixture Normalizing Flow Modeling for Unified Anomaly Detection [12.065053799927506]
本稿では,一貫した異常検出を実現するための新しい階層型ガウス混合流れモデリング法を提案する。
我々のHGADは,クラス間ガウス混合モデリングとクラス内混合クラスセンター学習の2つの重要な構成要素から構成されている。
提案手法を4つの実世界のADベンチマークで評価し,従来のNFベースのAD手法を大幅に改善し,SOTA統合AD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-20T07:21:37Z) - Learning a Gaussian Mixture for Sparsity Regularization in Inverse
Problems [2.375943263571389]
逆問題では、スパーシティ事前の組み込みは、解に対する正則化効果をもたらす。
本稿では,ガウスの混合として事前に定式化された確率的疎性について提案する。
我々は、このネットワークのパラメータを推定するために、教師なしのトレーニング戦略と教師なしのトレーニング戦略をそれぞれ導入した。
論文 参考訳(メタデータ) (2024-01-29T22:52:57Z) - Heavy-tailed denoising score matching [5.371337604556311]
ランゲヴィン力学における複数のノイズレベルを連続的に初期化する反復的雑音スケーリングアルゴリズムを開発した。
実用面では、重み付きDSMを用いることで、スコア推定、制御可能なサンプリング収束、不均衡データセットに対するよりバランスのない非条件生成性能が改善される。
論文 参考訳(メタデータ) (2021-12-17T22:04:55Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - Deep Normalization for Speaker Vectors [13.310988353839237]
ディープスピーカー埋め込みは、話者認識タスクにおける最先端の性能を実証した。
ディープ話者ベクトルは個々の話者に対して非ガウス的であり、異なる話者の分布に対して同質である。
本稿では,新しい識別正規化フロー(DNF)モデルに基づく深層正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-07T09:20:48Z) - Gaussianization Flows [113.79542218282282]
そこで本研究では,サンプル生成における効率のよい繰り返しと効率のよい逆変換を両立できる新しい型正規化フローモデルを提案する。
この保証された表現性のため、サンプル生成の効率を損なうことなく、マルチモーダルなターゲット分布をキャプチャできる。
論文 参考訳(メタデータ) (2020-03-04T08:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。