論文の概要: Effectiveness of Mining Audio and Text Pairs from Public Data for
Improving ASR Systems for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2208.12666v1
- Date: Fri, 26 Aug 2022 13:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:26:25.166669
- Title: Effectiveness of Mining Audio and Text Pairs from Public Data for
Improving ASR Systems for Low-Resource Languages
- Title(参考訳): 低リソース言語のためのASRシステム改善のための公開データからの音声・テキストペアのマイニングの有効性
- Authors: Kaushal Santosh Bhogale, Abhigyan Raman, Tahir Javed, Sumanth
Doddapaneni, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra
- Abstract要約: Shrutilipiは、12のインドの言語で6,400時間以上のラベル付きオーディオを含むデータセットです。
平均すると、Shrutilipiは公開ラベル付きデータよりも2.3倍増加する。
We show that that Shrutilipi to the training set of Wav2Vec models to a average down of WER for 7 languages。
- 参考スコア(独自算出の注目度): 15.214673043019395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) models have become the default choice for state-of-the-art
speech recognition systems. Such models are trained on large amounts of
labelled data, which are often not available for low-resource languages.
Techniques such as self-supervised learning and transfer learning hold promise,
but have not yet been effective in training accurate models. On the other hand,
collecting labelled datasets on a diverse set of domains and speakers is very
expensive. In this work, we demonstrate an inexpensive and effective
alternative to these approaches by ``mining'' text and audio pairs for Indian
languages from public sources, specifically from the public archives of All
India Radio. As a key component, we adapt the Needleman-Wunsch algorithm to
align sentences with corresponding audio segments given a long audio and a PDF
of its transcript, while being robust to errors due to OCR, extraneous text,
and non-transcribed speech. We thus create Shrutilipi, a dataset which contains
over 6,400 hours of labelled audio across 12 Indian languages totalling to
4.95M sentences. On average, Shrutilipi results in a 2.3x increase over
publicly available labelled data. We establish the quality of Shrutilipi with
21 human evaluators across the 12 languages. We also establish the diversity of
Shrutilipi in terms of represented regions, speakers, and mentioned named
entities. Significantly, we show that adding Shrutilipi to the training set of
Wav2Vec models leads to an average decrease in WER of 5.8\% for 7 languages on
the IndicSUPERB benchmark. For Hindi, which has the most benchmarks (7), the
average WER falls from 18.8% to 13.5%. This improvement extends to efficient
models: We show a 2.3% drop in WER for a Conformer model (10x smaller than
Wav2Vec). Finally, we demonstrate the diversity of Shrutilipi by showing that
the model trained with it is more robust to noisy input.
- Abstract(参考訳): エンドツーエンド(e2e)モデルが最先端音声認識システムのデフォルト選択となっている。
このようなモデルは大量のラベル付きデータに基づいてトレーニングされるが、低リソース言語では利用できないことが多い。
自己教師付き学習や伝達学習のような技術は、約束を守るが、正確なモデルの訓練には効果がない。
一方で、さまざまなドメインと話者のセットでラベル付きデータセットの収集は非常に高価である。
本研究は,インド・ラジオの公文書から,インド語のテキストと音声ペアを公開資料から抽出し,安価かつ効果的な代替案を示すものである。
主成分として,onesureman-wunschアルゴリズムを適用し,長い音声と書き起こしのpdfが与えられた音声セグメントに文をアライメントするとともに,ocr,外来テキスト,非書き起こし音声による誤りに頑健な文をアライメントする。
Shrutilipiは12の言語で6,400時間以上のラベル付き音声を含むデータセットで、総文数は4.95万である。
平均すると、Shrutilipiは公開ラベル付きデータよりも2.3倍増加する。
我々はShrutilipiの質を12言語で21人の評価者で確立した。
また,表現された地域,話者,名前付きエンティティの観点で,シュルチピの多様性を確立する。
特に,wav2vecモデルのトレーニングセットにshrutilipiを加えると,indicsuperbベンチマークで7言語で平均5.8\%のwerが低下することが示された。
最も高いベンチマーク(7)を持つヒンディー語では、平均werは18.8%から13.5%に低下する。
この改善は効率的なモデルにまで拡張され、コンフォーマーモデル(Wv2Vecの10倍小さい)のWERの2.3%の低下を示す。
最後に、Shrutilipiの多様性を、トレーニングしたモデルがノイズの多い入力よりも堅牢であることを示す。
関連論文リスト
- Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。
ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。
我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文 参考訳(メタデータ) (2024-11-19T15:55:56Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。