論文の概要: Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech
- arxiv url: http://arxiv.org/abs/2408.13746v1
- Date: Sun, 25 Aug 2024 07:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:00:02.952937
- Title: Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech
- Title(参考訳): 正常発声・発声音声のスペクトル包絡と1D-CNNによる分類
- Authors: S. Johanan Joysingh, P. Vijayalakshmi, T. Nagarajan,
- Abstract要約: フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき音声が存在しないことが明らかである。
これらの特徴を捉えるために1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whisper, as a form of speech, is not sufficiently addressed by mainstream speech applications. This is due to the fact that systems built for normal speech do not work as expected for whispered speech. A first step to building a speech application that is inclusive of whispered speech, is the successful classification of whispered speech and normal speech. Such a front-end classification system is expected to have high accuracy and low computational overhead, which is the scope of this paper. One of the characteristics of whispered speech is the absence of the fundamental frequency (or pitch), and hence the pitch harmonics as well. The presence of the pitch and pitch harmonics in normal speech, and its absence in whispered speech, is evident in the spectral envelope of the Fourier transform. We observe that this characteristic is predominant in the first quarter of the spectrum, and exploit the same as a feature. We propose the use of one dimensional convolutional neural networks (1D-CNN) to capture these features from the quartered spectral envelope (QSE). The system yields an accuracy of 99.31% when trained and tested on the wTIMIT dataset, and 100% on the CHAINS dataset. The proposed feature is compared with Mel frequency cepstral coefficients (MFCC), a staple in the speech domain. The proposed classification system is also compared with the state-of-the-art system based on log-filterbank energy (LFBE) features trained on long short-term memory (LSTM) network. The proposed system based on 1D-CNN performs better than, or as good as, the state-of-the-art across multiple experiments. It also converges sooner, with lesser computational overhead. Finally, the proposed system is evaluated under the presence of white noise at various signal-to-noise ratios and found to be robust.
- Abstract(参考訳): ウィスパーは、音声の一形態として、主流の音声アプリケーションでは十分に対処されていない。
これは、通常の音声のために構築されたシステムが、ささやき声に対して期待通りに機能しないためである。
ささやき音声を含む音声アプリケーションを構築する第一歩は、ささやき音声と正常音声の分類に成功したことである。
このようなフロントエンド分類システムでは,高い精度と計算オーバーヘッドが期待できる。
発声音声の特徴の1つは、基本周波数(またはピッチ)の欠如であり、したがってピッチ高調波も同様である。
フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき声の欠如が明らかである。
我々は、この特性がスペクトルの第1四半期で支配的であり、特徴として利用していることを観察する。
本稿では,1次元畳み込みニューラルネットワーク(1D-CNN)を用いて,これらの特徴を量子スペクトル包絡(QSE)から捉えることを提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
提案手法は,Mel 周波数ケプストラム係数 (MFCC) と比較した。
提案した分類システムは,長期記憶(LSTM)ネットワークで訓練されたLFBE(log-filterbank energy)機能に基づく最先端システムと比較される。
1D-CNNに基づく提案システムは,複数の実験における最先端技術よりも優れた性能を示す。
また、より早く収束し、計算オーバーヘッドも小さくなる。
最後に,様々な信号対雑音比において白色雑音の存在下で評価を行い,ロバストであることが判明した。
関連論文リスト
- Quartered Chirp Spectral Envelope for Whispered vs Normal Speech Classification [0.0]
そこで本研究では,発声音声と正常音声を分類するために,クオードチャープスペクトルエンベロープという新機能を提案する。
この機能は、1次元の畳み込みニューラルネットワークでトレーニングされ、スペクトルエンベロープのトレンドをキャプチャする。
提案システムは,ホワイトノイズの存在下で,技術状況よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-08-27T04:56:22Z) - Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition [18.90193320368228]
フェア音声認識システムのためのアクセントクラスタリングとマイニング方式を提案する。
アクセント認識のために,教師付きアクセントデータの限られたサイズを克服するために3つのスキームを適用した。
インドアクセント音声の微調整では,無作為なサンプル音声の微調整に比べて10.0%と5.3%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2024-08-05T16:00:07Z) - Syllable based DNN-HMM Cantonese Speech to Text System [3.976127530758402]
本稿では,音節ベース音響モデルを用いたカントーン音声テキスト(STT)システムを構築する。
OnCに基づく音節音響モデリングは、単語誤り率(WER)が9.66%、リアルタイム係数(RTF)が1.38812で最高の性能を達成する。
論文 参考訳(メタデータ) (2024-02-13T20:54:24Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Training Speech Enhancement Systems with Noisy Speech Datasets [7.157870452667369]
本稿では,雑音の多い音声データに基づいてSEシステムの訓練を行うための2つの改良を提案する。
まず、雑音の多い音声のターゲットに対して頑健な損失関数のいくつかの修正を提案する。
従来のシステムと比較して,ロバストな損失関数を用いることでPSSQが最大0.19向上することを示す。
論文 参考訳(メタデータ) (2021-05-26T03:32:39Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - End-to-end Whispered Speech Recognition with Frequency-weighted
Approaches and Pseudo Whisper Pre-training [130.56878980058966]
発声音声のエンド・ツー・エンド(E2E)認識に対するいくつかのアプローチを提案する。
我々は,比較的小型のTIMITコーパスを用いて,PER19.8%,CER44.4%の相対的な削減を実現した。
正規または擬似発声音声で事前訓練された優れたE2Eモデルがある限り、比較的小さな発声音声は、合理的に優れたE2E発声音声認識器を得るのに十分である。
論文 参考訳(メタデータ) (2020-05-05T07:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。