論文の概要: Bengali Common Voice Speech Dataset for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2206.14053v2
- Date: Wed, 29 Jun 2022 15:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 09:59:17.011754
- Title: Bengali Common Voice Speech Dataset for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのベンガル音声データセット
- Authors: Samiul Alam, Asif Sushmit, Zaowad Abdullah, Shahrin Nakkhatra, MD.
Nazmuddoha Ansary, Syed Mobassir Hossen, Sazia Morshed Mehnaz, Tahsin Reasat,
Ahmed Imtiaz Humayun
- Abstract要約: ベンガル語は世界で3億人以上の話者を抱える世界有数の言語の一つである。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットが不足しているために妨げられている。
このデータセットから得られた知見を提示し、今後のバージョンで対処すべき重要な言語的課題について議論する。
- 参考スコア(独自算出の注目度): 0.9218853132156671
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Bengali is one of the most spoken languages in the world with over 300
million speakers globally. Despite its popularity, research into the
development of Bengali speech recognition systems is hindered due to the lack
of diverse open-source datasets. As a way forward, we have crowdsourced the
Bengali Common Voice Speech Dataset, which is a sentence-level automatic speech
recognition corpus. Collected on the Mozilla Common Voice platform, the dataset
is part of an ongoing campaign that has led to the collection of over 400 hours
of data in 2 months and is growing rapidly. Our analysis shows that this
dataset has more speaker, phoneme, and environmental diversity compared to the
OpenSLR Bengali ASR dataset, the largest existing open-source Bengali speech
dataset. We present insights obtained from the dataset and discuss key
linguistic challenges that need to be addressed in future versions.
Additionally, we report the current performance of a few Automatic Speech
Recognition (ASR) algorithms and set a benchmark for future research.
- Abstract(参考訳): ベンガル語は世界でも有数の言語であり、3億人を超える話者がいる。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットの欠如のために妨げられている。
そこで我々は,文レベル自動音声認識コーパスであるBengali Common Voice Speech Datasetをクラウドソーシングした。
Mozilla Common Voiceプラットフォームで収集されたデータセットは、現在進行中のキャンペーンの一部であり、2ヶ月で400時間を超えるデータの収集につながっており、急速に成長している。
分析の結果,既存のオープンソースベンガル音声データセットであるOpenSLR Bengali ASRデータセットと比較して,話者,音素,環境の多様性が高いことがわかった。
我々は、データセットから得られた知見を示し、将来のバージョンで対処すべき重要な言語的課題について論じる。
さらに、いくつかの自動音声認識(ASR)アルゴリズムの現在の性能を報告し、将来の研究のためのベンチマークを設定した。
関連論文リスト
- BIG-C: a Multimodal Multi-Purpose Dataset for Bemba [30.058814706934147]
データセットは、画像に基づいてベンバ話者間のマルチターン対話で構成され、翻訳され、英語に翻訳される。
92,000以上の発話/文があり、対応する書き起こしと英訳を伴う180時間以上の音声データである。
論文 参考訳(メタデータ) (2023-05-26T18:49:55Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - OOD-Speech: A Large Bengali Speech Recognition Dataset for
Out-of-Distribution Benchmarking [1.277758355297812]
OOD-Speechはベンガル語自動音声認識(ASR)のための最初のアウト・オブ・ディストリビューション・ベンチマークデータセットである
私たちのトレーニングデータセットは、大規模なオンラインクラウドソーシングキャンペーンを通じて収集され、1177.94時間、南アジアから22,645ドルのベンガル語話者から収集され、キュレートされた。
論文 参考訳(メタデータ) (2023-05-15T18:00:39Z) - An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning [0.0]
本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。
提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
論文 参考訳(メタデータ) (2022-09-16T18:20:16Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。