論文の概要: Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet
- arxiv url: http://arxiv.org/abs/2406.17825v1
- Date: Tue, 25 Jun 2024 12:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 17:36:24.620273
- Title: Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet
- Title(参考訳): CNN, 双方向LSTM, ResNetを用いたネパール語の自動音声認識
- Authors: Manish Dhakal, Arman Chhetri, Aman Kumar Gupta, Prabin Lamichhane, Suraj Pandey, Subarna Shakya,
- Abstract要約: 本稿ではネパール語音声をテキストに書き起こす自動音声認識(ASR)のためのエンドツーエンドディープラーニングモデルを提案する。
モデルはOpenSLR(audio, text)データセットでトレーニングされ、テストされた。
文字誤り率(CER)は17.06パーセントに達している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end deep learning model for Automatic Speech Recognition (ASR) that transcribes Nepali speech to text. The model was trained and tested on the OpenSLR (audio, text) dataset. The majority of the audio dataset have silent gaps at both ends which are clipped during dataset preprocessing for a more uniform mapping of audio frames and their corresponding texts. Mel Frequency Cepstral Coefficients (MFCCs) are used as audio features to feed into the model. The model having Bidirectional LSTM paired with ResNet and one-dimensional CNN produces the best results for this dataset out of all the models (neural networks with variations of LSTM, GRU, CNN, and ResNet) that have been trained so far. This novel model uses Connectionist Temporal Classification (CTC) function for loss calculation during training and CTC beam search decoding for predicting characters as the most likely sequence of Nepali text. On the test dataset, the character error rate (CER) of 17.06 percent has been achieved. The source code is available at: https://github.com/manishdhakal/ASR-Nepali-using-CNN-BiLSTM-ResNet.
- Abstract(参考訳): 本稿ではネパール語音声をテキストに書き起こす自動音声認識(ASR)のためのエンドツーエンドディープラーニングモデルを提案する。
モデルはOpenSLR(audio, text)データセットでトレーニングされ、テストされた。
オーディオデータセットの大部分は、データセット前処理中にクリップされ、より均一なオーディオフレームと対応するテキストのマッピングを行う。
MFCC(Mel Frequency Cepstral Coefficients)は、モデルに入力するためのオーディオ機能として使用される。
ResNetと1次元CNNと組み合わせた双方向LSTMを持つモデルは、これまでにトレーニングされた全てのモデル(LSTM、GRU、CNN、ResNetのバリエーションを持つニューラルネットワーク)の中で、このデータセットの最良の結果を生成する。
この新モデルは、トレーニング中の損失計算とCTCビーム探索デコードにコネクティニスト時間分類(CTC)関数を使用し、ネパール語のテキストの最も可能性の高いシーケンスとして文字を予測する。
テストデータセットでは17.06パーセントの文字エラー率(CER)が達成されている。
ソースコードはhttps://github.com/manishdhakal/ASR-Nepali-using-CNN-BiLSTM-ResNetで公開されている。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Nepali Video Captioning using CNN-RNN Architecture [0.0]
本稿では,ディープニューラルネットワークを用いたネパールの動画キャプションについて述べる。
この研究は、事前訓練されたCNNとRNNの統合を通じて、ネパールの動画の正確で文脈的に関係のあるキャプションを生成することに焦点を当てている。
このアプローチには、データセットの収集、データ前処理、モデル実装、評価が含まれる。
論文 参考訳(メタデータ) (2023-11-05T16:09:40Z) - ATGNN: Audio Tagging Graph Neural Network [25.78859233831268]
ATGNNは学習可能なクラス埋め込みとスペクトログラム領域間の意味関係をマッピングするグラフニューラルネットワークアーキテクチャである。
我々は2つのオーディオタグタスクでATGNNを評価し、FSD50Kデータセットで0.585 mAP、AudioSetバランスデータセットで0.335 mAPを達成する。
論文 参考訳(メタデータ) (2023-11-02T18:19:26Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Efficiently Trained Low-Resource Mongolian Text-to-Speech System Based
On FullConv-TTS [0.0]
本稿では,RNN成分(繰り返し単位)を用いない深層畳み込みニューラルネットワークに基づく音声合成システムを提案する。
同時に、時間ワープ、周波数マスク、時間マスクといった一連のデータ拡張手法により、モデルの汎用性とロバスト性を向上する。
最後に, CNN コンポーネントのみを用いた TTS モデルは,Tacotron などの古典的 TTS モデルと比較してトレーニング時間を短縮できることを示した。
論文 参考訳(メタデータ) (2022-10-24T14:18:43Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - R-MelNet: Reduced Mel-Spectral Modeling for Neural TTS [1.8927791081850118]
本稿では、バックエンドのWaveRNNスタイルのオーディオデコーダを備えた2部自動回帰アーキテクチャであるR-MelNetを紹介する。
このモデルは、WaveRNNデコーダが音声波形を生成するために使用する低分解能メルスペクトル特性を生成する。
論文 参考訳(メタデータ) (2022-06-30T13:29:31Z) - Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes [0.0]
我々は,S2Sデコード中にCTC-Prefix-Scoreを使用することを提案する。
ビームサーチ中、CTC信頼行列に従って無効となるパスがペナル化される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
論文 参考訳(メタデータ) (2021-10-12T11:40:05Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。