論文の概要: Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing
N-gram Language Models
- arxiv url: http://arxiv.org/abs/2209.12650v1
- Date: Tue, 13 Sep 2022 17:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 23:39:19.110656
- Title: Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing
N-gram Language Models
- Title(参考訳): bangla-wave:n-gram言語モデルを用いたバングラ自動音声認識の改善
- Authors: Mohammed Rakib, Md. Ismail Hossain, Nabeel Mohammed, Fuad Rahman
- Abstract要約: ポストプロセッサとしてn-gram言語モデルを追加することにより,ASRモデルの性能を大幅に向上させる方法について述べる。
我々は既存のASRモデルよりも優れた堅牢なBangla ASRモデルを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although over 300M around the world speak Bangla, scant work has been done in
improving Bangla voice-to-text transcription due to Bangla being a low-resource
language. However, with the introduction of the Bengali Common Voice 9.0 speech
dataset, Automatic Speech Recognition (ASR) models can now be significantly
improved. With 399hrs of speech recordings, Bengali Common Voice is the largest
and most diversified open-source Bengali speech corpus in the world. In this
paper, we outperform the SOTA pretrained Bengali ASR models by finetuning a
pretrained wav2vec2 model on the common voice dataset. We also demonstrate how
to significantly improve the performance of an ASR model by adding an n-gram
language model as a post-processor. Finally, we do some experiments and
hyperparameter tuning to generate a robust Bangla ASR model that is better than
the existing ASR models.
- Abstract(参考訳): 世界中の3億人がバングラ語を話すが、Banglaは低リソース言語であるため、Banglaの音声からテキストへの書き起こしを改善する作業は難しかった。
しかし、Bengali Common Voice 9.0音声データセットの導入により、自動音声認識(ASR)モデルは大幅に改善される。
399hrsの音声録音があり、ベンガル・コモン・ボイスは世界最大のオープンソースのベンガル音声コーパスである。
本稿では,事前学習されたwav2vec2モデルを共通音声データセット上で微調整することにより,somaプリトレーニングされたベンガルasrモデルよりも優れることを示す。
また,ポストプロセッサとしてn-gram言語モデルを追加することにより,asrモデルの性能を著しく向上させる方法を示す。
最後に、既存のASRモデルよりも優れた堅牢なBangla ASRモデルを生成するために、いくつかの実験とハイパーパラメータチューニングを行う。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning [0.0]
本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。
提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
論文 参考訳(メタデータ) (2022-09-16T18:20:16Z) - Thai Wav2Vec2.0 with CommonVoice V8 [7.818074118880726]
最も一般に公開されている自動音声認識(ASR)モデルは英語で利用可能であり、タイ語でのみ利用可能である。
タイのASRモデルのほとんどはクローズドソースであり、既存のオープンソースモデルのパフォーマンスは堅牢性に欠ける。
我々はタイのコモンVoiceコーパスV8を用いて事前訓練されたXLSR-Wav2Vecモデル上で新しいASRモデルを訓練し、ASRモデルの性能を高めるためにトリグラム言語モデルを訓練する。
論文 参考訳(メタデータ) (2022-08-09T14:21:48Z) - ASR-Generated Text for Language Model Pre-training Applied to Speech
Tasks [20.83731188652985]
我々は、フランス国立音響研究所(INA)のコレクションを活用し、多様なテレビ番組の35万時間にASRを適用した後、19GBのテキストを取得する。
新たなモデル(FlauBERT-Oral)がコミュニティと共有され、音声言語理解、テレビ番組の分類、音声構文解析の3つのダウンストリームタスクに対して評価される。
論文 参考訳(メタデータ) (2022-07-05T08:47:51Z) - Bengali Common Voice Speech Dataset for Automatic Speech Recognition [0.9218853132156671]
ベンガル語は世界で3億人以上の話者を抱える世界有数の言語の一つである。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットが不足しているために妨げられている。
このデータセットから得られた知見を提示し、今後のバージョンで対処すべき重要な言語的課題について議論する。
論文 参考訳(メタデータ) (2022-06-28T14:52:08Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Byakto Speech: Real-time long speech synthesis with convolutional neural
network: Transfer learning from English to Bangla [0.0]
Byaktaは、音声合成システムへの最初のオープンソースのディープラーニングベースのバイリンガルテキスト(バングラ語と英語)である。
TTSモデルの性能を評価するため,音声認識モデルに基づく自動スコアリング尺度も提案した。
音声品質評価のためのBangla音声合成モデルのためのテストベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-31T20:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。