論文の概要: A Convolutional Neural Network Based Approach to Recognize Bangla Spoken
Digits from Speech Signal
- arxiv url: http://arxiv.org/abs/2111.06625v1
- Date: Fri, 12 Nov 2021 09:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 13:02:57.809990
- Title: A Convolutional Neural Network Based Approach to Recognize Bangla Spoken
Digits from Speech Signal
- Title(参考訳): 畳み込みニューラルネットワークによる音声信号からのバングラ斑点の認識
- Authors: Ovishake Sen, Al-Mahmud and Pias Roy
- Abstract要約: データセットを作成するために、1桁あたり400のノイズとノイズのないサンプルが記録されている。
MFCC(Mel Frequency Cepstrum Coefficients)は生音声データから有意な特徴を抽出するために用いられている。
畳み込みニューラルネットワーク(CNN)を用いてバングラ数桁を検出する。
提案手法は、データセット全体を通して97.1%の精度で'0-9'バングラ音声桁を認識する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition is a technique that converts human speech signals into
text or words or in any form that can be easily understood by computers or
other machines. There have been a few studies on Bangla digit recognition
systems, the majority of which used small datasets with few variations in
genders, ages, dialects, and other variables. Audio recordings of Bangladeshi
people of various genders, ages, and dialects were used to create a large
speech dataset of spoken '0-9' Bangla digits in this study. Here, 400 noisy and
noise-free samples per digit have been recorded for creating the dataset. Mel
Frequency Cepstrum Coefficients (MFCCs) have been utilized for extracting
meaningful features from the raw speech data. Then, to detect Bangla numeral
digits, Convolutional Neural Networks (CNNs) were utilized. The suggested
technique recognizes '0-9' Bangla spoken digits with 97.1% accuracy throughout
the whole dataset. The efficiency of the model was also assessed using 10-fold
crossvalidation, which yielded a 96.7% accuracy.
- Abstract(参考訳): 音声認識(英: speech recognition)とは、人間の音声信号をテキストや単語、コンピュータや他の機械で容易に理解できる形で変換する技術である。
バングラの数字認識システムに関するいくつかの研究があり、その大半は性別、年齢、方言、その他の変数にほとんど変化のない小さなデータセットを使用していた。
バングラデシュの様々な性別、年齢、方言の人々の音声記録を用いて、この研究において「0-9」バングラ数字の音声データセットを作成した。
ここで、400個のノイズとノイズのないサンプルがデータセットの作成のために記録されている。
MFCC(Mel Frequency Cepstrum Coefficients)は生音声データから有意な特徴を抽出するために用いられている。
次に,バングラ数字を検出するために畳み込みニューラルネットワーク(cnns)を用いた。
提案手法は、データセット全体を通して97.1%の精度で'0-9'バングラ音声桁を認識する。
モデルの効率も10倍のクロスバリデーションを用いて評価され、96.7%の精度を得た。
関連論文リスト
- Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech [0.5330251011543498]
我々は,男性633人,女性633人を対象に,45時間以上の音声データを用いた。
私たちは85.44%の精度を記録しました。
論文 参考訳(メタデータ) (2024-04-18T10:17:20Z) - LSTM-CNN Network for Audio Signature Analysis in Noisy Environments [0.0]
本研究では,長期記憶畳み込みニューラルネットワーク(LSTM-CNN)に着目し,各フレームにおけるアクティブ話者数と性別をノイズの多い環境下で推定する。
講演者の最大数は10人であり, 公立都市, 産業状況, モール, 展示場, 職場, 自然の多様な組み合わせによる音声サンプルを学習目的で利用した。
この概念の証明は、数と性別を検出する上で、約0.019/0.017のトレーニング/検証MSE値で有望な性能を示す。
論文 参考訳(メタデータ) (2023-12-12T08:26:20Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning [0.0]
本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。
提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
論文 参考訳(メタデータ) (2022-09-16T18:20:16Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - NeuraGen-A Low-Resource Neural Network based approach for Gender
Classification [0.0]
ELSDSRとTIMITデータセットから収集した音声記録を用いた。
我々は、8つの音声特徴を抽出し、その特徴を前処理し、その後NeuraGenに入力し、性別を特定した。
NeuraGenは90.7407%、F1スコア91.227%、20倍のクロス検証データセットを達成している。
論文 参考訳(メタデータ) (2022-03-29T05:57:24Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。