論文の概要: An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning
- arxiv url: http://arxiv.org/abs/2209.08119v2
- Date: Tue, 20 Sep 2022 02:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:39:47.142844
- Title: An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning
- Title(参考訳): Wav2Vec2に基づくベンガル語の自動音声認識システムと伝達学習
- Authors: Tushar Talukder Showrav
- Abstract要約: 本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。
提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An independent, automated method of decoding and transcribing oral speech is
known as automatic speech recognition (ASR). A typical ASR system extracts
feature from audio recordings or streams and run one or more algorithms to map
the features to corresponding texts. Numerous of research has been done in the
field of speech signal processing in recent years. When given adequate
resources, both conventional ASR and emerging end-to-end (E2E) speech
recognition have produced promising results. However, for low-resource
languages like Bengali, the current state of ASR lags behind, although the low
resource state does not reflect upon the fact that this language is spoken by
over 500 million people all over the world. Despite its popularity, there
aren't many diverse open-source datasets available, which makes it difficult to
conduct research on Bengali speech recognition systems. This paper is a part of
the competition named `BUET CSE Fest DL Sprint'. The purpose of this paper is
to improve the speech recognition performance of the Bengali language by
adopting speech recognition technology on the E2E structure based on the
transfer learning framework. The proposed method effectively models the Bengali
language and achieves 3.819 score in `Levenshtein Mean Distance' on the test
dataset of 7747 samples, when only 1000 samples of train dataset were used to
train.
- Abstract(参考訳): 自動音声認識 (Automatic Speech Recognition, ASR) は, 音声を自動生成し, 自動生成する手法である。
典型的なASRシステムはオーディオ録音やストリームから特徴を抽出し、その特徴を対応するテキストにマッピングするために1つ以上のアルゴリズムを実行する。
近年,音声信号処理の分野では数多くの研究が行われている。
適切なリソースが与えられると、従来のASRと新興エンドツーエンド(E2E)音声認識の両方が有望な結果をもたらす。
しかし、Bengaliのような低リソース言語では、現在のASRの状況は遅れているものの、低リソースの状態は、この言語が世界中の5億人以上の人々が話すという事実を反映していない。
その人気にもかかわらず、さまざまなオープンソースデータセットが利用可能ではないため、ベンガル音声認識システムの研究は困難である。
本論文は,「BET CSE Fest DL Sprint」という競技会の一部である。
本研究の目的は,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることである。
提案手法はベンガル語を効果的にモデル化し,7747例の試験データセットにおいて,1000例の列車データセットのみを訓練した場合に,'levenshtein平均距離'で3.819点を達成した。
関連論文リスト
- Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Predicting positive transfer for improved low-resource speech
recognition using acoustic pseudo-tokens [31.83988006684616]
我々は、ターゲット言語を、類似の高リソースの「ドナー」言語からのデータで補うことが役立つことを示す。
例えば、60時間ドナーのヒンディーが補充された低リソースのパンジャービの10時間のみの事前訓練は、70時間ドナーのパンジャービの70時間ドナーのほぼ同程度である。
論文 参考訳(メタデータ) (2024-02-03T23:54:03Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Bengali Common Voice Speech Dataset for Automatic Speech Recognition [0.9218853132156671]
ベンガル語は世界で3億人以上の話者を抱える世界有数の言語の一つである。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットが不足しているために妨げられている。
このデータセットから得られた知見を提示し、今後のバージョンで対処すべき重要な言語的課題について議論する。
論文 参考訳(メタデータ) (2022-06-28T14:52:08Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。