論文の概要: GMM-ResNext: Combining Generative and Discriminative Models for Speaker Verification
- arxiv url: http://arxiv.org/abs/2407.03135v1
- Date: Wed, 3 Jul 2024 14:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:56:35.300165
- Title: GMM-ResNext: Combining Generative and Discriminative Models for Speaker Verification
- Title(参考訳): GMM-ResNext:話者検証のための生成モデルと識別モデルを組み合わせる
- Authors: Hui Yan, Zhenchun Lei, Changhong Liu, Yong Zhou,
- Abstract要約: 話者検証のためのGMM-ResNextモデルを提案する。
2つの性関連GMMに基づく2経路GMM-ResNextモデルも提案されている。
提案されたGMM-ResNextは、VoxCeleb1-OテストセットのResNet34とECAPA-TDNNと比較して、EERの48.1%と11.3%の相対的な改善を実現している。
- 参考スコア(独自算出の注目度): 12.598652038778368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of deep learning, many different network architectures have been explored in speaker verification. However, most network architectures rely on a single deep learning architecture, and hybrid networks combining different architectures have been little studied in ASV tasks. In this paper, we propose the GMM-ResNext model for speaker verification. Conventional GMM does not consider the score distribution of each frame feature over all Gaussian components and ignores the relationship between neighboring speech frames. So, we extract the log Gaussian probability features based on the raw acoustic features and use ResNext-based network as the backbone to extract the speaker embedding. GMM-ResNext combines Generative and Discriminative Models to improve the generalization ability of deep learning models and allows one to more easily specify meaningful priors on model parameters. A two-path GMM-ResNext model based on two gender-related GMMs has also been proposed. The Experimental results show that the proposed GMM-ResNext achieves relative improvements of 48.1\% and 11.3\% in EER compared with ResNet34 and ECAPA-TDNN on VoxCeleb1-O test set.
- Abstract(参考訳): ディープラーニングの発展に伴い、話者検証において多くの異なるネットワークアーキテクチャが検討されている。
しかし、ほとんどのネットワークアーキテクチャは1つのディープラーニングアーキテクチャに依存しており、異なるアーキテクチャを組み合わせたハイブリッドネットワークは、ASVタスクではほとんど研究されていない。
本稿では,話者検証のためのGMM-ResNextモデルを提案する。
従来のGMMでは、すべてのガウス成分における各フレーム特徴のスコア分布を考慮せず、隣接する音声フレーム間の関係を無視する。
そこで我々は,生音響特徴に基づいてガウス確率特徴を抽出し,ResNextベースのネットワークをバックボーンとして使用し,話者埋め込みを抽出する。
GMM-ResNextは、生成モデルと識別モデルを組み合わせて、ディープラーニングモデルの一般化能力を改善し、モデルパラメータに意味のある事前をより容易に特定できるようにする。
2つの性関連GMMに基づく2経路GMM-ResNextモデルも提案されている。
実験の結果,提案したGMM-ResNextは,VoxCeleb1-OテストセットのResNet34とECAPA-TDNNと比較して,EERの48.1\%と11.3\%の相対的な改善を実現していることがわかった。
関連論文リスト
- An Efficient 1 Iteration Learning Algorithm for Gaussian Mixture Model
And Gaussian Mixture Embedding For Neural Network [2.261786383673667]
新しいアルゴリズムは、古典的な期待最大化(EM)アルゴリズムよりも頑丈さと単純さをもたらす。
また、精度も向上し、学習に1回しかかからない。
論文 参考訳(メタデータ) (2023-08-18T10:17:59Z) - Improving Deep Attractor Network by BGRU and GMM for Speech Separation [0.0]
Deep Attractor Network (DANet) は、音声分離分野における最先端技術である。
本稿では,BLSTMの代わりに双方向ゲーテッドニューラルネットワーク(BGRU)を用いて,単純化された強力なDANetモデルを提案する。
論文 参考訳(メタデータ) (2023-08-07T06:26:53Z) - Cramer Type Distances for Learning Gaussian Mixture Models by Gradient
Descent [0.0]
今日まで、ガウス混合モデルに適合または学習できる既知のアルゴリズムはほとんどない。
一般多変量GMM学習のためのスライスクラマー2距離関数を提案する。
これらの機能は、分散強化学習とディープQネットワークに特に有用である。
論文 参考訳(メタデータ) (2023-07-13T13:43:02Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - Novel Hybrid DNN Approaches for Speaker Verification in Emotional and
Stressful Talking Environments [1.0998375857698495]
この研究は、深層モデルと浅いアーキテクチャを組み合わせることで、新しいハイブリッド分類器を生み出した。
ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)、ディープニューラルネットワーク-ガウス混合モデル(DNN-GMM)、隠れマルコフモデル-ディープニューラルネットワーク(HMM-DNN)の4つの異なるハイブリッドモデルが利用された。
その結果、HMM-DNNは、EER(Equal error rate)およびAUC(Equal curve)評価指標で他の全てのハイブリッドモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-26T10:47:14Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - Meta-Aggregator: Learning to Aggregate for 1-bit Graph Neural Networks [127.32203532517953]
我々は,GNNパラメータとグラフ特徴をバイナライズするバニラ1ビットフレームワークを開発した。
軽量なアーキテクチャにもかかわらず、我々はこのバニラフレームワークがグラフトポロジを区別するのに十分な差別力に悩まされていることを観察した。
この発見は、バニラ二項化GNNの表現力を向上させるためにメタアグリゲータを考案する動機となる。
論文 参考訳(メタデータ) (2021-09-27T08:50:37Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z) - DeepGMR: Learning Latent Gaussian Mixture Models for Registration [113.74060941036664]
ポイントクラウドの登録は、3Dコンピュータビジョン、グラフィックス、ロボット工学の基本的な問題である。
本稿では,最初の学習ベース登録法であるDeep Gaussian Mixture Registration(DeepGMR)を紹介する。
提案手法は,最先端の幾何学的および学習的登録手法と比較して,良好な性能を示す。
論文 参考訳(メタデータ) (2020-08-20T17:25:16Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。