論文の概要: Robust Recognition of Persian Isolated Digits in Speech using Deep Neural Network
- arxiv url: http://arxiv.org/abs/2412.10857v1
- Date: Sat, 14 Dec 2024 15:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:28.491213
- Title: Robust Recognition of Persian Isolated Digits in Speech using Deep Neural Network
- Title(参考訳): ディープニューラルネットワークを用いた音声中のペルシャ分離ディジットのロバスト認識
- Authors: Ali Nasr-Esfahani, Mehdi Bekrani, Roozbeh Rajabi,
- Abstract要約: 既存のニューラルネットワーク手法はノイズの影響を無視することが多く、ノイズの多い環境では精度が低下する。
この研究は、孤立したペルシャ数字(ゼロから9)の認識に挑戦する。
提案手法は,ペルシャ数認識のためのハイブリッド構造において,残差畳み込みニューラルネットワークと双方向リカレントユニットを組み合わせたものである。
- 参考スコア(独自算出の注目度): 1.5566524830295307
- License:
- Abstract: In recent years, artificial intelligence (AI) has advanced significantly in speech recognition applications. Speech-based interaction with digital systems, particularly AI-driven digit recognition, has emerged as a prominent application. However, existing neural network-based methods often neglect the impact of noise, leading to reduced accuracy in noisy environments. This study tackles the challenge of recognizing the isolated spoken Persian numbers (zero to nine), particularly distinguishing phonetically similar numbers, in noisy environments. The proposed method, which is designed for speaker-independent recognition, combines residual convolutional neural network and bidirectional gated recurrent unit in a hybrid structure for Persian number recognition. This method employs word units as input instead of phoneme units. Audio data from 51 speakers of FARSDIGIT1 database are utilized after augmentation using various noises, and the Mel-Frequency Cepstral Coefficients (MFCC) technique is employed for feature extraction. The experimental results show the proposed method efficacy with 98.53%, 96.10%, and 95.9% recognition accuracy for training, validation, and test, respectively. In the noisy environment, the proposed method exhibits an average performance improvement of 26.88% over phoneme unit-based LSTM method for Persian numbers. In addition, the accuracy of the proposed method is 7.61% better than that of the Mel-scale Two Dimension Root Cepstrum Coefficients (MTDRCC) feature extraction technique along with MLP model in the test data for the same dataset.
- Abstract(参考訳): 近年,人工知能(AI)は音声認識の応用において大きく進歩している。
音声に基づくデジタルシステムとのインタラクション、特にAI駆動のデジタル認識は、顕著な応用として現れている。
しかし、既存のニューラルネットワークベースの手法はノイズの影響を無視することが多く、ノイズの多い環境では精度が低下する。
この研究は、孤立したペルシャ数字(9から9まで)を認識するという課題に取り組み、特に雑音の多い環境で、音声的に類似した数字を区別する。
提案手法は話者独立認識のために設計され,ペルシャ数字認識のためのハイブリッド構造において,残差畳み込みニューラルネットワークと双方向ゲート再帰ユニットを組み合わせる。
この方法は音素単位の代わりに単語単位を入力として利用する。
FARSDIGIT1データベースの51話者の音声データを様々な雑音を用いて拡張し,Mel-Frequency Cepstral Coefficients(MFCC)技術を用いて特徴抽出を行う。
実験の結果, 評価精度は98.53%, 96.10%, 95.9%であった。
雑音環境下では,ペルシャ数字に対する音素単位ベースLSTM法よりも平均26.88%の性能向上を示す。
さらに,提案手法の精度は,Mel-scale Two Dimension Root Cepstrum Coefficients (MTDRCC) の特徴抽出手法よりも7.61%向上した。
関連論文リスト
- Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Complex-valued neural networks for voice anti-spoofing [1.1510009152620668]
現在のアンチスプーフィングおよびオーディオディープフェイク検出システムは、CQTやメルスペクトログラムのような等級スペクトルベースの特徴または畳み込みやシンク層によって処理される生オーディオを使用する。
本稿では,複雑な数値ニューラルネットワークを用いて入力音声を処理することにより,両手法の利点を組み合わせた新しい手法を提案する。
その結果、この手法は"In-the-Wild"アンチスプーフィングデータセットの従来の手法よりも優れており、説明可能なAIによる結果の解釈を可能にしていることがわかった。
論文 参考訳(メタデータ) (2023-08-22T21:49:38Z) - Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-11-02T07:13:30Z) - The Sound of Silence: Efficiency of First Digit Features in Synthetic
Audio Detection [11.52842516726486]
本研究は,合成音声検出におけるサイレント部分の識別的役割について検討する。
これは、MFCC係数から抽出された1桁の統計が、いかに効率的にロバストな検出を可能にするかを示す。
提案手法は計算軽量であり,多くの異なるアルゴリズムに対して有効である。
論文 参考訳(メタデータ) (2022-10-06T08:31:21Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。