論文の概要: Automatic Estimation of Intelligibility Measure for Consonants in Speech
- arxiv url: http://arxiv.org/abs/2005.06065v2
- Date: Sun, 28 Jun 2020 21:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 19:35:15.608205
- Title: Automatic Estimation of Intelligibility Measure for Consonants in Speech
- Title(参考訳): 音声における子音の知能度自動推定
- Authors: Ali Abavisani and Mark Hasegawa-Johnson
- Abstract要約: 我々は、停止子音に対する畳み込みニューラルネットワーク(CNN)に基づく回帰モデルを訓練する。
本研究では,通常の聴覚 (NH) 耳に対して,共振器(CV) の音が知覚可能となる雑音比 (SNR) を推定する。
- 参考スコア(独自算出の注目度): 44.02658023314131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article, we provide a model to estimate a real-valued measure of the
intelligibility of individual speech segments. We trained regression models
based on Convolutional Neural Networks (CNN) for stop consonants
\textipa{/p,t,k,b,d,g/} associated with vowel \textipa{/A/}, to estimate the
corresponding Signal to Noise Ratio (SNR) at which the Consonant-Vowel (CV)
sound becomes intelligible for Normal Hearing (NH) ears. The intelligibility
measure for each sound is called SNR$_{90}$, and is defined to be the SNR level
at which human participants are able to recognize the consonant at least 90\%
correctly, on average, as determined in prior experiments with NH subjects.
Performance of the CNN is compared to a baseline prediction based on automatic
speech recognition (ASR), specifically, a constant offset subtracted from the
SNR at which the ASR becomes capable of correctly labeling the consonant.
Compared to baseline, our models were able to accurately estimate the
SNR$_{90}$~intelligibility measure with less than 2 [dB$^2$] Mean Squared Error
(MSE) on average, while the baseline ASR-defined measure computes
SNR$_{90}$~with a variance of 5.2 to 26.6 [dB$^2$], depending on the consonant.
- Abstract(参考訳): 本稿では,個々の音声セグメントの識別性に関する実数値尺度を推定するモデルを提案する。
母音 \textipa{/a/} に対応する停止子音 \textipa{/p,t,k,b,d,g/} に対する畳み込みニューラルネットワーク (cnn) に基づく回帰モデルを訓練し, 子音-母音 (cv) が正常聴覚 (nh) 耳に知覚可能となる雑音比 (snr) に対する応答信号の推定を行った。
SNR$_{90}$(SNR$_{90}$)と呼ばれ、NH被験者による先行実験で決定されたように、人間の参加者が平均して90%以上正確に子音を認識できるSNRレベルと定義される。
CNNの性能は、自動音声認識(ASR)に基づくベースライン予測と比較され、具体的には、ASRが子音を正しくラベル付けできるSNRから減算された定数オフセットである。
ベースラインと比較して、我々のモデルは平均的に2[dB$^2$]平均正方形誤差(MSE)でSNR$_{90}$~知能度を正確に推定することができ、ベースラインのASR定義測度は5.2から26.6[dB$^2$]の分散で計算できる。
関連論文リスト
- Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - UNSSOR: Unsupervised Neural Speech Separation by Leveraging
Over-determined Training Mixtures [60.879679764741624]
残響状態においては、各マイクは異なる場所で複数の話者の混合信号を取得する。
我々は、$textbfu$nsupervised $textbfn$euralのアルゴリズムUNSSORを提案する。
この損失は、教師なし話者の分離を促進することが示される。
論文 参考訳(メタデータ) (2023-05-31T17:28:02Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - The Performance Evaluation of Attention-Based Neural ASR under Mixed
Speech Input [1.776746672434207]
音声信号の混合を、リステン、アテンダント、スペル(LAS)として知られる、一般的な注目に基づくニューラルネットワークASRに提示する。
特に、予測音素とは何かという2つの音素がいつ混合されるのかを詳細に検討する。
実験の結果,混合音素信号が提示された場合,高い精度の音素を予測できる傾向が認められた。
論文 参考訳(メタデータ) (2021-08-03T02:08:22Z) - Denoising Noisy Neural Networks: A Bayesian Approach with Compensation [36.39188653838991]
ノイズニューラルネット(ノイズニューラルネット、Noisy Neural Network)は、ノイズの存在下でのNNの推測と訓練を指す。
本報告では, ノイズや症状から未汚染NN重量を推定する方法について検討する。
論文 参考訳(メタデータ) (2021-05-22T11:51:20Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。