論文の概要: Utterance partitioning for speaker recognition: an experimental review
and analysis with new findings under GMM-SVM framework
- arxiv url: http://arxiv.org/abs/2105.11728v1
- Date: Tue, 25 May 2021 07:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 13:48:12.041651
- Title: Utterance partitioning for speaker recognition: an experimental review
and analysis with new findings under GMM-SVM framework
- Title(参考訳): 話者認識のための発話分割:GMM-SVMフレームワークによる新しい知見を用いた実験と分析
- Authors: Nirmalya Sen, Md Sahidullah (MULTISPEECH), Hemant Patil (DA-IICT),
Shyamal Kumar das Mandal (IIT Kharagpur), Sreenivasa Krothapalli Rao (IIT
Kharagpur), Tapan Kumar Basu (IIT Kharagpur)
- Abstract要約: 本研究は,GMM-SVMに基づく話者認識システムについて,持続的変動が存在する場合の詳細な実験的レビューと解析を行う。
この研究の主な焦点は発話分割(UP)であり、これは時間的変動問題を補うためによく使われる戦略である。
- 参考スコア(独自算出の注目度): 0.23090185577016442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of speaker recognition system is highly dependent on the
amount of speech used in enrollment and test. This work presents a detailed
experimental review and analysis of the GMM-SVM based speaker recognition
system in presence of duration variability. This article also reports a
comparison of the performance of GMM-SVM classifier with its precursor
technique Gaussian mixture model-universal background model (GMM-UBM)
classifier in presence of duration variability. The goal of this research work
is not to propose a new algorithm for improving speaker recognition performance
in presence of duration variability. However, the main focus of this work is on
utterance partitioning (UP), a commonly used strategy to compensate the
duration variability issue. We have analysed in detailed the impact of training
utterance partitioning in speaker recognition performance under GMM-SVM
framework. We further investigate the reason why the utterance partitioning is
important for boosting speaker recognition performance. We have also shown in
which case the utterance partitioning could be useful and where not. Our study
has revealed that utterance partitioning does not reduce the data imbalance
problem of the GMM-SVM classifier as claimed in earlier study. Apart from
these, we also discuss issues related to the impact of parameters such as
number of Gaussians, supervector length, amount of splitting required for
obtaining better performance in short and long duration test conditions from
speech duration perspective. We have performed the experiments with telephone
speech from POLYCOST corpus consisting of 130 speakers.
- Abstract(参考訳): 音声認識システムの性能は、登録やテストに使用する音声量に大きく依存する。
本稿では,gmm-svmを用いた話者認識システムの持続時間変動を考慮した詳細な評価と分析を行う。
本稿では,gmm-svm分類器と,その先行手法であるガウス混合モデル-ユニバーサル背景モデル(gmm-ubm)の性能を比較した。
本研究の目的は、持続時間変動を考慮した話者認識性能向上のための新しいアルゴリズムを提案することではない。
しかし、本研究の主な焦点は、持続時間の変動を補償する一般的な戦略である発話分割(up)である。
我々は,GMM-SVMフレームワークにおける話者認識性能における発話分割学習の効果を詳細に分析した。
さらに,発話分割が音声認識性能の向上に重要である理由について検討する。
また,発話分割が有用である場合とそうでない場合についても紹介した。
本研究により,従来のGMM-SVM分類器では,発話分割がデータ不均衡問題を軽減しないことが明らかになった。
これらとは別に、ガウス数、超ベクター長、音声持続時間の観点からの短時間および長時間の試験条件におけるより良い性能を得るために必要とされる分割量などのパラメータの影響についても論じる。
我々は,130人の話者からなるPOLYCOSTコーパスの音声による実験を行った。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。