論文の概要: Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.06802v1
- Date: Sun, 11 Jan 2026 08:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.00174
- Title: Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition
- Title(参考訳): 余分なこと:スーダン方言自動音声認識のためのデータ拡張
- Authors: Ayman Mansour,
- Abstract要約: 本稿では,OpenAI Whisperモデルを微調整するためのデータ拡張手法について述べる。
スーダン方言の最初のベンチマークを確立している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although many Automatic Speech Recognition (ASR) systems have been developed for Modern Standard Arabic (MSA) and Dialectal Arabic (DA), few studies have focused on dialect-specific implementations, particularly for low-resource Arabic dialects such as Sudanese. This paper presents a comprehensive study of data augmentation techniques for fine-tuning OpenAI Whisper models and establishes the first benchmark for the Sudanese dialect. Two augmentation strategies are investigated: (1) self-training with pseudo-labels generated from unlabeled speech, and (2) TTS-based augmentation using synthetic speech from the Klaam TTS system. The best-performing model, Whisper-Medium fine-tuned with combined self-training and TTS augmentation (28.4 hours), achieves a Word Error Rate (WER) of 57.1% on the evaluation set and 51.6% on an out-of-domain holdout set substantially outperforming zero-shot multilingual Whisper (78.8% WER) and MSA-specialized Arabic models (73.8-123% WER). All experiments used low-cost resources (Kaggle free tier and Lightning.ai trial), demonstrating that strategic data augmentation can overcome resource limitations for low-resource dialects and provide a practical roadmap for developing ASR systems for low-resource Arabic dialects and other marginalized language varieties. The models, evaluation benchmarks, and reproducible training pipelines are publicly released to facilitate future research on low-resource Arabic ASR.
- Abstract(参考訳): 現代標準アラビア語 (MSA) や方言アラビア語 (DA) 向けに多くの自動音声認識 (ASR) システムが開発されているが、特にスーダンなどの低資源アラビア語方言において、方言固有の実装に焦点を当てた研究はほとんどない。
本稿では,OpenAI Whisperモデルを微調整するためのデータ拡張手法を包括的に研究し,スーダン方言の最初のベンチマークを確立する。
1)未ラベル音声からの擬似ラベルによる自己学習と,(2)Klaam TTSシステムからの合成音声を用いたTTSによる拡張について検討した。
最高のパフォーマンスモデルであるWhisper-Mediumは、自己訓練とTTS拡張(28.4時間)を組み合わせて微調整され、評価セットで57.1%のワードエラー率(WER)を達成し、ドメイン外のホールトアウトセットで51.6%がゼロショット多言語Whisper(78.8% WER)とMSA特化アラビア語モデル(73.8-123% WER)を大きく上回る。
すべての実験は低コストのリソース(Kaggle free tier と Lightning.ai トライアル)を使用し、戦略的なデータ拡張が低リソースの方言の資源制限を克服し、低リソースのアラビア方言や他の周辺言語品種のためのASRシステムを開発するための実用的なロードマップを提供することを示した。
モデル、評価ベンチマーク、再現可能なトレーニングパイプラインは、低リソースのアラビアASRの研究を促進するために公開されている。
関連論文リスト
- DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation [111.94720088481614]
多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか?
6つの共通英語方言にまたがる大規模ベンチマークを構築した。
マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
論文 参考訳(メタデータ) (2025-10-16T17:56:55Z) - Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。
ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。
微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文 参考訳(メタデータ) (2025-07-27T14:37:53Z) - Adaptability of ASR Models on Low-Resource Language: A Comparative Study of Whisper and Wav2Vec-BERT on Bangla [0.0]
本研究では,2つの最先端自動音声認識(ASR)モデル,OpenAIのWhisper(Small & Large-V2)とFacebookのWav2Vec-BERT(Bangla)の性能について検討した。
論文 参考訳(メタデータ) (2025-07-02T17:44:54Z) - KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [64.1520245849231]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。
Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。
最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文 参考訳(メタデータ) (2025-03-24T09:39:41Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。