論文の概要: Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning
- arxiv url: http://arxiv.org/abs/2508.08912v1
- Date: Tue, 12 Aug 2025 13:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.428909
- Title: Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning
- Title(参考訳): Munsit at NADI 2025 Shared Task 2: Pushing the boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning (英語)
- Authors: Mahmoud Salhab, Shameed Sait, Mohammad Abusheikh, Hasan Abusheikh,
- Abstract要約: 本稿では,弱教師付き学習と教師付き微調整を組み合わせたスケーラブルな学習パイプラインを提案する。
提案手法は,多言語アラビア語のASR課題において第1位にランクインし,最先端の成果を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) plays a vital role in enabling natural human-machine interaction across applications such as virtual assistants, industrial automation, customer support, and real-time transcription. However, developing accurate ASR systems for low-resource languages like Arabic remains a significant challenge due to limited labeled data and the linguistic complexity introduced by diverse dialects. In this work, we present a scalable training pipeline that combines weakly supervised learning with supervised fine-tuning to develop a robust Arabic ASR model. In the first stage, we pretrain the model on 15,000 hours of weakly labeled speech covering both Modern Standard Arabic (MSA) and various Dialectal Arabic (DA) variants. In the subsequent stage, we perform continual supervised fine-tuning using a mixture of filtered weakly labeled data and a small, high-quality annotated dataset. Our approach achieves state-of-the-art results, ranking first in the multi-dialectal Arabic ASR challenge. These findings highlight the effectiveness of weak supervision paired with fine-tuning in overcoming data scarcity and delivering high-quality ASR for low-resource, dialect-rich languages.
- Abstract(参考訳): 自動音声認識(ASR)は、仮想アシスタント、産業自動化、カスタマーサポート、リアルタイム転写などのアプリケーション間での自然な人間と機械の相互作用を可能にする上で重要な役割を担っている。
しかし、アラビア語のような低リソース言語のための正確なASRシステムの開発は、限られたラベル付きデータと多様な方言によって導入された言語的複雑さのために、依然として重要な課題である。
本研究では,弱教師付き学習と教師付き微調整を組み合わせたスケーラブルな学習パイプラインを提案する。
第1段階では、現代標準アラビア語(MSA)と様々な方言アラビア語(DA)の両変種をカバーする弱ラベル付きスピーチの15,000時間でモデルを事前訓練する。
その後の段階では、フィルタされた弱ラベル付きデータと、小型で高品質な注釈付きデータセットの混合を用いて、連続的な教師付き微調整を行う。
提案手法は,多言語アラビア語のASR課題において第1位にランクインし,最先端の成果を達成している。
これらの知見は,データ不足を克服し,低リソースで方言に富んだ言語に高品質なASRを提供することにおいて,微調整と組み合わせた弱監督の有効性を浮き彫りにした。
関連論文リスト
- Open Automatic Speech Recognition Models for Classical and Modern Standard Arabic [15.807843278492847]
言語固有の課題に対処するために,アラビア語音声とテキスト処理の普遍的方法論を導入する。
我々は、FastConformerアーキテクチャに基づく2つの新しいモデルを訓練する。ひとつは、モダンスタンダードアラビア(MSA)用に特別に設計されたもので、もうひとつは、MSAと古典アラビア(CA)の両方のための最初の統一パブリックモデルである。
MSAモデルは、関連するデータセット上での最先端(SOTA)パフォーマンスで新しいベンチマークを設定し、統一モデルは、MSAの強いパフォーマンスを維持しながら、CAのためのダイアクリティカルティクスでSOTA精度を達成する。
論文 参考訳(メタデータ) (2025-07-18T14:42:18Z) - KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning [0.0]
弱教師付き学習を用いて、コンフォーマーアーキテクチャを用いてアラビアASRモデルを訓練する。
我々のモデルは、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする弱注釈音声データを15,000時間スクラッチから訓練する。
論文 参考訳(メタデータ) (2025-04-16T17:05:14Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.6716697906318]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から, モデルが良好に機能することのないことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - Dialectal Coverage And Generalization in Arabic Speech Recognition [0.6757476692230007]
既存のASRシステムは、多種多様な話し言葉にまたがる範囲と一般化において不足している。
アラビア語圏の様々な地域では、英語やフランス語とのコードスイッチも一般的である。
音声アラビアの複数の変種を効果的に認識するために最適化された一連のASRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-07T22:23:30Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。