論文の概要: Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages
- arxiv url: http://arxiv.org/abs/2411.04573v1
- Date: Thu, 07 Nov 2024 09:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:58.196301
- Title: Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages
- Title(参考訳): 低音源言語における音声認識のための多段階微調整手法
- Authors: Leena G Pillai, Kavya Manohar, Basil K Raju, Elizabeth Sherly,
- Abstract要約: 本稿では,低リソース言語における音声認識(ASR)の性能向上を目的とした,新しい多段階微調整手法を提案する。
本稿では,言語的に類似した言語にモデルを逐次適応させることにより,限られたデジタルリソースを持つ言語を対象としたASRモデルを構築することを目的とする。
私たちは、南インドの西ガーツで約1万人が話していたドラヴィダ語であるマラサール語でこれを実験した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents a novel multistage fine-tuning strategy designed to enhance automatic speech recognition (ASR) performance in low-resource languages using OpenAI's Whisper model. In this approach we aim to build ASR model for languages with limited digital resources by sequentially adapting the model across linguistically similar languages. We experimented this on the Malasar language, a Dravidian language spoken by approximately ten thousand people in the Western Ghats of South India. Malasar language faces critical challenges for technological intervention due to its lack of a native script and absence of digital or spoken data resources. Working in collaboration with Wycliffe India and Malasar community members, we created a spoken Malasar corpus paired with transcription in Tamil script, a closely related major language. In our approach to build ASR model for Malasar, we first build an intermediate Tamil ASR, leveraging higher data availability for Tamil annotated speech. This intermediate model is subsequently fine-tuned on Malasar data, allowing for more effective ASR adaptation despite limited resources. The multistage fine-tuning strategy demonstrated significant improvements over direct fine-tuning on Malasar data alone, achieving a word error rate (WER) of 51.9%, which is 4.5% absolute reduction when compared to the direct fine-tuning method. Further a WER reduction to 47.3% was achieved through punctuation removal in post-processing, which addresses formatting inconsistencies that impact evaluation. Our results underscore the effectiveness of sequential multistage fine-tuning combined with targeted post-processing as a scalable strategy for ASR system development in low-resource languages, especially where linguistic similarities can be leveraged to bridge gaps in training data.
- Abstract(参考訳): 本論文では、OpenAIのWhisperモデルを用いて、低リソース言語における音声認識(ASR)性能を向上させるために設計された、新しい多段階微調整戦略を提案する。
本稿では,言語的に類似した言語にモデルを逐次適応させることにより,限られたデジタルリソースを持つ言語を対象としたASRモデルを構築することを目的とする。
私たちは、南インドの西ガーツで約1万人が話していたドラヴィダ語であるマラサール語でこれを実験した。
マラサール語は、ネイティブスクリプトの欠如と、デジタルまたは音声データリソースの欠如により、技術的介入の重要な課題に直面している。
Wycliffe India と Malasar のコミュニティメンバと共同で,関係の深い主要言語である Tamil スクリプトの書き起こしと組み合わせて,マラサール語コーパスを作成した。
マラサールのためのASRモデルを構築するためのアプローチでは、まず、タミルアノテートされた音声の高可用性を活用して、中間タミルASRを構築する。
この中間モデルはその後、マラサールデータに基づいて微調整され、限られた資源にもかかわらずより効果的なASR適応を可能にする。
多段階の微調整戦略は、直接微調整法と比較して4.5%の絶対値である単語誤り率(WER)を51.9%で達成し、マラサールのデータだけで直接微調整よりも大幅に改善した。
さらにWERの47.3%の削減は、評価に影響を及ぼすフォーマットの不整合に対処する後処理の句読点除去によって達成された。
この結果から,低リソース言語におけるASRシステム開発のためのスケーラブルな戦略として,多段階ファインチューニングとターゲットポストプロセッシングを併用したシーケンシャルマルチステージファインチューニングの有効性が示唆された。
関連論文リスト
- Whisper Turns Stronger: Augmenting Wav2Vec 2.0 for Superior ASR in Low-Resource Languages [1.3108652488669736]
本稿では,データ拡張技術を用いて,Wav2Vec2上で微調整されたASRシステムを強化するエンドツーエンドフレームワークを提案する。
提案手法は,事前学習したWav2Vec2とよく知られたWhisper ASRモデルの2つのベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-12-31T13:03:20Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - QueEn: A Large Language Model for Quechua-English Translation [20.377876059048692]
本稿では,Retrieval-Augmented Generation(RAG)とパラメータ効率のよい微調整技術を組み合わせた,ケチュア英訳の新しい手法であるQueEnを提案する。
BLEUスコアは標準GPTモデルの1.5に対して17.6である。
論文 参考訳(メタデータ) (2024-12-06T17:04:21Z) - Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition [2.7247388777405597]
重み付きクロスエントロピーの新たな応用法を提案する。
我々は5つの高ソース言語と1つの低リソース言語でWhisper多言語ASRモデルを微調整する。
論文 参考訳(メタデータ) (2024-09-25T14:09:09Z) - Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Cross-Lingual Text Classification of Transliterated Hindi and Malayalam [31.86825573676501]
この問題に対処するために、データ拡張アプローチと教師-学生のトレーニングスキームを組み合わせる。
我々は,ヒンディー語とマラヤラム語を翻訳し,実世界のシナリオをベンチマークするための新しいデータセットを導入した。
その結果,MBERTでは5.6%,XLM-Rでは4.7%,F1では5.7%であった。
論文 参考訳(メタデータ) (2021-08-31T05:13:17Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。