論文の概要: Overcoming Data Scarcity in Multi-Dialectal Arabic ASR via Whisper Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.02627v1
- Date: Tue, 03 Jun 2025 08:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.497261
- Title: Overcoming Data Scarcity in Multi-Dialectal Arabic ASR via Whisper Fine-Tuning
- Title(参考訳): ウィスパーファインチューニングによる多次元アラビアASRにおけるデータスカシティの克服
- Authors: Ömer Tarik Özyilmaz, Matt Coler, Matias Valdenegro-Toro,
- Abstract要約: 5つの主要なアラビア語方言に対する微調整OpenAIのWhisperの効果について検討する。
少量のMSA微調整データにより,より小さなモデルに対して大幅な改善が得られた。
方言プーリングされたモデルは、方言固有のモデルと同等に機能する。
- 参考スコア(独自算出の注目度): 7.725659617972303
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Although commercial Arabic automatic speech recognition (ASR) systems support Modern Standard Arabic (MSA), they struggle with dialectal speech. We investigate the effect of fine-tuning OpenAI's Whisper on five major Arabic dialects (Gulf, Levantine, Iraqi, Egyptian, Maghrebi) using Mozilla Common Voice for MSA and the MASC dataset for dialectal speech. We evaluate MSA training size effects, benefits of pre-training on MSA data, and dialect-specific versus dialect-pooled models. We find that small amounts of MSA fine-tuning data yield substantial improvements for smaller models, matching larger non-fine-tuned models. While MSA pre-training shows minimal benefit, suggesting limited shared features between MSA and dialects, our dialect-pooled models perform comparably to dialect-specific ones. This indicates that pooling dialectal data, when properly balanced, can help address data scarcity in low-resource ASR without significant performance loss.
- Abstract(参考訳): 商業用アラビア語自動音声認識 (ASR) システムは現代標準アラビア語 (MSA) をサポートしているが、方言の発音に苦慮している。
Mozilla Common Voice for MSAとMASCデータセットを用いた5つの主要なアラビア方言(Gulf, Levantine, Iraqi, Egypt, Maghrebi)に対する微調整OpenAIのWhisperの効果を検討した。
我々は、MSAトレーニングサイズ効果、MSAデータに対する事前学習の利点、方言固有の対方言プールモデルを評価する。
少量のMSA微調整データが、より小さなモデルに対して大幅に改善され、より大規模な非微調整モデルに適合することが判明した。
MSA事前学習は、MSAと方言の共有性に限界があることを示すが、我々の方言プールモデルでは、方言固有のモデルと同等に機能する。
このことは、方言データのプールが適切にバランスをとれば、低リソースのASRにおけるデータの不足に顕著なパフォーマンス損失を伴わずに対処できることを示している。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。
Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。
最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文 参考訳(メタデータ) (2025-03-24T09:39:41Z) - Dialectal Coverage And Generalization in Arabic Speech Recognition [0.6757476692230007]
既存のASRシステムは、多種多様な話し言葉にまたがる範囲と一般化において不足している。
アラビア語圏の様々な地域では、英語やフランス語とのコードスイッチも一般的である。
音声アラビアの複数の変種を効果的に認識するために最適化された一連のASRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-07T22:23:30Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal
Conversations on Online Social Media [5.2957928879391]
本稿では,英語のつぶやきを4つのアラビア方言に文脈的に翻訳することで構築した,オンラインソーシャルネットワークに基づく多言語アラビア語データセットを提案する。
その結果,我々のデータセットを用いてトレーニングしたニューラルMTモデルの優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-21T14:58:50Z) - Improving Speech Recognition for African American English With Audio
Classification [17.785482810741367]
本稿では,少数のドメイン外データを用いて,米国英語短波形音声認識器の頑健性を向上させる新しい手法を提案する。
このデータを微調整すると、MAEの品質を低下させることなくAAEとMAEの間で38.5%の単語誤り率格差が減少する。
論文 参考訳(メタデータ) (2023-09-16T19:57:45Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。