論文の概要: Efficient ASR for Low-Resource Languages: Leveraging Cross-Lingual Unlabeled Data
- arxiv url: http://arxiv.org/abs/2512.07277v1
- Date: Mon, 08 Dec 2025 08:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.780791
- Title: Efficient ASR for Low-Resource Languages: Leveraging Cross-Lingual Unlabeled Data
- Title(参考訳): 低リソース言語のための効率的なASR:言語間非ラベルデータの活用
- Authors: Srihari Bandarupalli, Bhavana Akkiraju, Charan Devarakonda, Vamsiraghusimha Narsinga, Anil Kumar Vuppala,
- Abstract要約: 低リソース言語に対する言語間連続事前学習の体系化について検討する。
スケーラブルなラベルなしデータ収集パイプラインを用いて,3000時間の多言語コーパスを構築した。
5倍の性能を持つ3Mパラメータモデルを構築するために, ターゲット型連続事前訓練と形態素認識トークン化を併用した。
- 参考スコア(独自算出の注目度): 5.324230283177818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition for low-resource languages remains fundamentally constrained by the scarcity of labeled data and computational resources required by state-of-the-art models. We present a systematic investigation into cross-lingual continuous pretraining for low-resource languages, using Perso-Arabic languages (Persian, Arabic, and Urdu) as our primary case study. Our approach demonstrates that strategic utilization of unlabeled speech data can effectively bridge the resource gap without sacrificing recognition accuracy. We construct a 3,000-hour multilingual corpus through a scalable unlabeled data collection pipeline and employ targeted continual pretraining combined with morphologically-aware tokenization to develop a 300M parameter model that achieves performance comparable to systems 5 times larger. Our model outperforms Whisper Large v3 (1.5B parameters) on Persian and achieves competitive results on Arabic and Urdu despite using significantly fewer parameters and substantially less labeled data. These findings challenge the prevailing assumption that ASR quality scales primarily with model size, revealing instead that data relevance and strategic pretraining are more critical factors for low-resource scenarios. This work provides a practical pathway toward inclusive speech technology, enabling effective ASR for underrepresented languages without dependence on massive computational infrastructure or proprietary datasets.
- Abstract(参考訳): 低リソース言語の自動音声認識は、最先端のモデルで必要とされるラベル付きデータや計算資源の不足により、基本的に制限されている。
我々は,ペルソ・アラビア語(ペルシャ語,アラビア語,ウルドゥー語)を主要な事例として,低リソース言語に対する言語間連続事前学習を体系的に検討する。
提案手法は,未ラベル音声データの戦略的利用により,認識精度を犠牲にすることなく,資源ギャップを効果的に橋渡しできることを示す。
スケーラブルなラベル付きデータ収集パイプラインを用いて3000時間の多言語コーパスを構築し,モルフォジカルなトークン化と組み合わせて,システムに匹敵する性能を実現する300Mパラメータモデルを構築した。
我々のモデルは、ペルシャ語でWhisper Large v3(1.5Bパラメータ)を上回り、非常に少ないパラメータとラベル付きデータを使用したにもかかわらず、アラビア語とウルドゥー語での競合結果を達成する。
これらの知見は、ASRの品質が主にモデルサイズでスケールするという一般的な仮定に挑戦し、代わりにデータ関連性や戦略的事前学習が低リソースシナリオにとってより重要な要素であることを明らかにした。
この研究は包括的音声技術への実践的な経路を提供し、膨大な計算基盤やプロプライエタリなデータセットに依存することなく、未表現言語に対して効果的なASRを可能にする。
関連論文リスト
- Relic: Enhancing Reward Model Generalization for Low-Resource Indic Languages with Few-Shot Examples [58.55904048776596]
ほとんどのオープンソースの多言語報酬モデルは、主にオープンソース言語の好みデータセットに基づいて訓練されている。
低リソースIndic言語における報酬モデリングのための新しい文脈内学習フレームワークであるRELICを提案する。
論文 参考訳(メタデータ) (2025-06-19T17:56:16Z) - Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [21.441457435054886]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。