論文の概要: Normalizing Flow based Hidden Markov Models for Classification of Speech
Phones with Explainability
- arxiv url: http://arxiv.org/abs/2107.00730v1
- Date: Thu, 1 Jul 2021 20:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:58:20.954924
- Title: Normalizing Flow based Hidden Markov Models for Classification of Speech
Phones with Explainability
- Title(参考訳): 説明可能な音声音声の分類のための正規化フローベース隠れマルコフモデル
- Authors: Anubhab Ghosh, Antoine Honor\'e, Dong Liu, Gustav Eje Henter, Saikat
Chatterjee
- Abstract要約: 説明可能性を求めるため,逐次データ生成モデルを開発した。
我々は、現代のニューラルネットワーク(正規化フロー)と伝統的な生成モデル(隠れマルコフモデル - HMM)を組み合わせる。
提案した生成モデルは、データの可能性を計算することができ、従って、最大形分類法(ML)に直接適合する。
- 参考スコア(独自算出の注目度): 25.543231171094384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In pursuit of explainability, we develop generative models for sequential
data. The proposed models provide state-of-the-art classification results and
robust performance for speech phone classification. We combine modern neural
networks (normalizing flows) and traditional generative models (hidden Markov
models - HMMs). Normalizing flow-based mixture models (NMMs) are used to model
the conditional probability distribution given the hidden state in the HMMs.
Model parameters are learned through judicious combinations of time-tested
Bayesian learning methods and contemporary neural network learning methods. We
mainly combine expectation-maximization (EM) and mini-batch gradient descent.
The proposed generative models can compute likelihood of a data and hence
directly suitable for maximum-likelihood (ML) classification approach. Due to
structural flexibility of HMMs, we can use different normalizing flow models.
This leads to different types of HMMs providing diversity in data modeling
capacity. The diversity provides an opportunity for easy decision fusion from
different models. For a standard speech phone classification setup involving 39
phones (classes) and the TIMIT dataset, we show that the use of standard
features called mel-frequency-cepstral-coeffcients (MFCCs), the proposed
generative models, and the decision fusion together can achieve $86.6\%$
accuracy by generative training only. This result is close to state-of-the-art
results, for examples, $86.2\%$ accuracy of PyTorch-Kaldi toolkit [1], and
$85.1\%$ accuracy using light gated recurrent units [2]. We do not use any
discriminative learning approach and related sophisticated features in this
article.
- Abstract(参考訳): 説明可能性を求めるため,逐次データ生成モデルを開発した。
提案したモデルは,音声音声分類における最先端の分類結果とロバストな性能を提供する。
現代のニューラルネットワーク(正規化フロー)と従来の生成モデル(hidden markov model - hmms)を組み合わせる。
正規化フローベース混合モデル(NMM)は,HMMの隠れ状態から条件付き確率分布をモデル化するために用いられる。
モデルパラメータは、時間テストベイズ学習法と現代のニューラルネットワーク学習法を巧みに組み合わせて学習される。
我々は主に期待最大化(em)とミニバッチ勾配降下を組み合わせる。
提案する生成モデルはデータの確率を計算できるため、ml (maximum-likelihood) の分類アプローチに直接適合する。
hmmの構造的柔軟性により、異なる正規化フローモデルが使用できる。
これにより、さまざまなタイプのHMMがデータモデリング能力に多様性をもたらします。
多様性は、異なるモデルから簡単に意思決定を融合する機会を提供する。
39台の電話機(クラス)とTIMITデータセットを含む標準音声音声分類設定において,MFCC(mel- frequency-cepstral-coeffcients)と呼ばれる標準機能の使用,提案した生成モデル,および決定融合を併用することにより,生成的トレーニングのみによる精度が8.6倍となることを示す。
この結果は最新の結果に近い、例えば、pytorch-kaldi toolkit [1]の86.2\%$精度と、光ゲートリカレントユニット [2] を用いた85.1\%$精度である。
この記事では、識別学習のアプローチと関連する高度な機能を使用しません。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - A Hybrid of Generative and Discriminative Models Based on the
Gaussian-coupled Softmax Layer [5.33024001730262]
本稿では,1つのニューラルネットワークにおける識別モデルと生成モデルのハイブリッドを学習する手法を提案する。
提案手法を半教師付き学習と信頼性校正に適用できることを実証する。
論文 参考訳(メタデータ) (2023-05-10T05:48:22Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Training Structured Mechanical Models by Minimizing Discrete
Euler-Lagrange Residual [36.52097893036073]
structured mechanical models (smms) は、機械システムのデータ効率の良いブラックボックスパラメータ化である。
離散オイラーラグランジュ残差を最小化することにより,SMMをデータに適用する手法を提案する。
実験の結果,従来のSMMの適合方式よりも精度の高いモデルが得られた。
論文 参考訳(メタデータ) (2021-05-05T00:44:01Z) - Continual Learning with Fully Probabilistic Models [70.3497683558609]
機械学習の完全確率的(または生成的)モデルに基づく継続的学習のアプローチを提案する。
生成器と分類器の両方に対してガウス混合モデル(GMM)インスタンスを用いた擬似リハーサル手法を提案する。
我々は,GMRが,クラス増分学習問題に対して,非常に競合的な時間とメモリの複雑さで,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-04-19T12:26:26Z) - Robust Classification using Hidden Markov Models and Mixtures of
Normalizing Flows [25.543231171094384]
我々は,隠れマルコフモデル(HMM)の状態遷移と,隠れたHMMの状態に対するニューラルネットワークに基づく確率分布を組み合わせた生成モデルを用いる。
音声認識への応用におけるNMM-HMM分類器の堅牢性の改善を検証する。
論文 参考訳(メタデータ) (2021-02-15T00:40:30Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Variational Mixture of Normalizing Flows [0.0]
生成逆数ネットワークオートサイトGAN、変分オートエンコーダオートサイトベイペーパー、およびそれらの変種などの深い生成モデルは、複雑なデータ分布をモデル化するタスクに広く採用されている。
正規化フローはこの制限を克服し、確率密度関数にそのような公式の変更を利用する。
本研究は,混合モデルのコンポーネントとして正規化フローを用い,そのようなモデルのエンドツーエンドトレーニング手順を考案することによって,この問題を克服する。
論文 参考訳(メタデータ) (2020-09-01T17:20:08Z) - Semi-nonparametric Latent Class Choice Model with a Flexible Class
Membership Component: A Mixture Model Approach [6.509758931804479]
提案したモデルは、従来のランダムユーティリティ仕様に代わるアプローチとして混合モデルを用いて潜在クラスを定式化する。
その結果,混合モデルにより潜在クラス選択モデル全体の性能が向上した。
論文 参考訳(メタデータ) (2020-07-06T13:19:26Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。