論文の概要: Assessing the Feasibility of Lightweight Whisper Models for Low-Resource Urdu Transcription
- arxiv url: http://arxiv.org/abs/2508.09865v1
- Date: Wed, 13 Aug 2025 15:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.937796
- Title: Assessing the Feasibility of Lightweight Whisper Models for Low-Resource Urdu Transcription
- Title(参考訳): 低リソースウルドゥー転写における軽量ウィスパーモデルの有効性の評価
- Authors: Abdul Rehman Antall, Naveed Akhtar,
- Abstract要約: 本研究では,低リソース環境下でのUrdu音声認識における軽量Whisperモデル(Tiny,Base,Small)の有効性を評価する。
単語誤り率(WER)を用いて,これらのモデルをキュレートしたUrduデータセット上で,微調整なしでベンチマークする。
その結果、Whisper-Small は Tiny (67.08% WER) と Base (53.67% WER) を上回り、最低エラー率を達成した。
- 参考スコア(独自算出の注目度): 28.030708956348864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study evaluates the feasibility of lightweight Whisper models (Tiny, Base, Small) for Urdu speech recognition in low-resource settings. Despite Urdu being the 10th most spoken language globally with over 230 million speakers, its representation in automatic speech recognition (ASR) systems remains limited due to dialectal diversity, code-switching, and sparse training data. We benchmark these models on a curated Urdu dataset using word error rate (WER), without fine-tuning. Results show Whisper-Small achieves the lowest error rates (33.68\% WER), outperforming Tiny (67.08\% WER) and Base (53.67\% WER). Qualitative analysis reveals persistent challenges in phonetic accuracy and lexical coherence, particularly for complex utterances. While Whisper-Small demonstrates promise for deployable Urdu ASR, significant gaps remain. Our findings emphasize lay the groundwork for future research into effective, low-resource ASR systems.
- Abstract(参考訳): 本研究では,低リソース環境下でのUrdu音声認識における軽量Whisperモデル(Tiny,Base,Small)の有効性を評価する。
ウルドゥー語は2億3000万人以上の話者を抱える世界で10番目に話されている言語であるが、方言の多様性、コードスイッチング、スパーストレーニングデータにより、自動音声認識(ASR)システムでの表現は制限されている。
We benchmark these model on a curated Urdu dataset using word error rate (WER) without fine-tuning。
その結果、Whisper-Small は最小エラーレート (33.68\% WER) を達成し、Tiny (67.08\% WER) と Base (53.67\% WER) を上回った。
定性的分析は、特に複雑な発話において、音韻精度と語彙コヒーレンスにおいて永続的な課題を明らかにする。
Whisper-SmallはUrdu ASRの展開を約束しているが、大きなギャップは残る。
本研究は,より効率的な低リソースASRシステムの研究の基盤となるものと考えられる。
関連論文リスト
- UrBLiMP: A Benchmark for Evaluating the Linguistic Competence of Large Language Models in Urdu [12.952822154200497]
言語最小ペア(UrBLiMP)のUrduベンチマークについて述べる。
UrBLiMPは10コアの構文現象を対象とする5,696個の最小ペアから構成される。
UrBLiMPアノテーションの人間による評価は96.10%のアノテーション間の合意を得た。
論文 参考訳(メタデータ) (2025-08-01T18:16:37Z) - Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。
Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。
最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文 参考訳(メタデータ) (2025-03-24T09:39:41Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - WER We Stand: Benchmarking Urdu ASR Models [3.5001789247699535]
本稿では,Urdu Automatic Speech Recognition(ASR)モデルの総合評価を行う。
単語誤り率(WER)を用いた3種類のASRモデル(Whisper, MMS, Seamless-M4T)の性能解析を行った。
読み上げ音声データセットでは、スムーズな広さが他のASRモデルより優れているのに対し、ささやきの広さは会話音声データセットでは最高であることがわかった。
論文 参考訳(メタデータ) (2024-09-17T15:00:31Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。