論文の概要: Phonetic Error Analysis of Raw Waveform Acoustic Models with Parametric and Non-Parametric CNNs
- arxiv url: http://arxiv.org/abs/2406.00898v1
- Date: Sun, 2 Jun 2024 23:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:56:53.360032
- Title: Phonetic Error Analysis of Raw Waveform Acoustic Models with Parametric and Non-Parametric CNNs
- Title(参考訳): パラメトリックCNNと非パラメトリックCNNを用いた生波形音響モデルの音声誤り解析
- Authors: Erfan Loweimi, Andrea Carmantini, Peter Bell, Steve Renals, Zoran Cvetkovic,
- Abstract要約: TIMITの音声認識タスクにおける生波形音響モデルの誤りパターンを解析する。
Affricate, diphthong, fricative, nasal, plosive, semi-vowel, vowel, quietの3つのグループに分類する。
置換誤差を用いて各カテゴリの混乱行列を構築し,その混乱パターンをフィルタバンクとWav2vec 2.0システムと比較する。
- 参考スコア(独自算出の注目度): 31.79120931183611
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we analyse the error patterns of the raw waveform acoustic models in TIMIT's phone recognition task. Our analysis goes beyond the conventional phone error rate (PER) metric. We categorise the phones into three groups: {affricate, diphthong, fricative, nasal, plosive, semi-vowel, vowel, silence}, {consonant, vowel+, silence}, and {voiced, unvoiced, silence} and, compute the PER for each broad phonetic class in each category. We also construct a confusion matrix for each category using the substitution errors and compare the confusion patterns with those of the Filterbank and Wav2vec 2.0 systems. Our raw waveform acoustic models consists of parametric (Sinc2Net) or non-parametric CNNs and Bidirectional LSTMs, achieving down to 13.7%/15.2% PERs on TIMIT Dev/Test sets, outperforming reported PERs for raw waveform models in the literature. We also investigate the impact of transfer learning from WSJ on the phonetic error patterns and confusion matrices. It reduces the PER to 11.8%/13.7% on the Dev/Test sets.
- Abstract(参考訳): 本稿では,TIMITの音声認識タスクにおける生波形音響モデルの誤りパターンを解析する。
我々の分析は従来の電話誤り率(PER)を超える。
携帯電話は, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素の3つのグループに分類される。
また、置換誤差を用いて各カテゴリの混乱行列を構築し、その混乱パターンをフィルタバンクやWav2vec 2.0システムと比較する。
我々の生波形音響モデルは、パラメトリック(Sinc2Net)または非パラメトリックCNNと双方向LSTMで構成され、TIMIT Dev/Testセット上で13.7%/15.2%のPERを達成し、文献における生波形モデルにおいて報告されたPERよりも優れていた。
また,WSJからの伝達学習が音声誤りパターンや混乱行列に与える影響についても検討した。
PERをDev/Testセットで11.8%/13.7%に削減する。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Conformer-based Target-Speaker Automatic Speech Recognition for
Single-Channel Audio [13.648878603097764]
単一チャネル話者自動音声認識のための非自己回帰型エンドツーエンド時間周波数領域アーキテクチャを提案する。
提案されたモデルはNVIDIA NeMoツールキットを通じてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-08-09T20:51:54Z) - Towards Robust FastSpeech 2 by Modelling Residual Multimodality [4.4904382374090765]
FastSpeech 2に基づく最先端の非自己回帰型音声合成モデルは、高忠実度と自然な音声を効率的に合成することができる。
表現型音声データセットにおける特徴的音声歪みを観察する。
TVC-GMMはスペクトログラムの滑らかさを低減し、特に表現的データセットの知覚音質を改善する。
論文 参考訳(メタデータ) (2023-06-02T11:03:26Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Analyzing Robustness of End-to-End Neural Models for Automatic Speech
Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。
本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文 参考訳(メタデータ) (2022-08-17T20:00:54Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。