論文の概要: Open Automatic Speech Recognition Models for Classical and Modern Standard Arabic
- arxiv url: http://arxiv.org/abs/2507.13977v1
- Date: Fri, 18 Jul 2025 14:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.324255
- Title: Open Automatic Speech Recognition Models for Classical and Modern Standard Arabic
- Title(参考訳): 古典・現代標準アラビア語のオープン音声認識モデル
- Authors: Lilit Grigoryan, Nikolay Karpov, Enas Albasiri, Vitaly Lavrukhin, Boris Ginsburg,
- Abstract要約: 言語固有の課題に対処するために,アラビア語音声とテキスト処理の普遍的方法論を導入する。
我々は、FastConformerアーキテクチャに基づく2つの新しいモデルを訓練する。ひとつは、モダンスタンダードアラビア(MSA)用に特別に設計されたもので、もうひとつは、MSAと古典アラビア(CA)の両方のための最初の統一パブリックモデルである。
MSAモデルは、関連するデータセット上での最先端(SOTA)パフォーマンスで新しいベンチマークを設定し、統一モデルは、MSAの強いパフォーマンスを維持しながら、CAのためのダイアクリティカルティクスでSOTA精度を達成する。
- 参考スコア(独自算出の注目度): 15.807843278492847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite Arabic being one of the most widely spoken languages, the development of Arabic Automatic Speech Recognition (ASR) systems faces significant challenges due to the language's complexity, and only a limited number of public Arabic ASR models exist. While much of the focus has been on Modern Standard Arabic (MSA), there is considerably less attention given to the variations within the language. This paper introduces a universal methodology for Arabic speech and text processing designed to address unique challenges of the language. Using this methodology, we train two novel models based on the FastConformer architecture: one designed specifically for MSA and the other, the first unified public model for both MSA and Classical Arabic (CA). The MSA model sets a new benchmark with state-of-the-art (SOTA) performance on related datasets, while the unified model achieves SOTA accuracy with diacritics for CA while maintaining strong performance for MSA. To promote reproducibility, we open-source the models and their training recipes.
- Abstract(参考訳): アラビア語は最も広く話されている言語の一つであるにもかかわらず、アラビア語自動音声認識(ASR)システムの開発は言語が複雑であるために重大な課題に直面している。
多くは現代標準アラビア語(MSA)に焦点が当てられているが、言語内の変化にはあまり注意が向けられていない。
本稿では,言語固有の課題に対処するために,アラビア語音声とテキスト処理の普遍的方法論を提案する。
この手法を用いて,MSA用に特別に設計されたFastConformerアーキテクチャと,MSAと古典アラビア語(CA)の両方を対象とした最初の統一公開モデルであるFastConformerアーキテクチャに基づく2つの新しいモデルを訓練する。
MSAモデルは、関連するデータセット上での最先端(SOTA)パフォーマンスで新しいベンチマークを設定し、統一モデルは、MSAの強いパフォーマンスを維持しながら、CAのためのダイアクリティカルティクスでSOTA精度を達成する。
再現性を促進するため、我々はモデルとそのトレーニングレシピをオープンソース化する。
関連論文リスト
- Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning [0.0]
弱教師付き学習を用いて、コンフォーマーアーキテクチャを用いてアラビアASRモデルを訓練する。
我々のモデルは、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする弱注釈音声データを15,000時間スクラッチから訓練する。
論文 参考訳(メタデータ) (2025-04-16T17:05:14Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Dialectal Coverage And Generalization in Arabic Speech Recognition [0.6757476692230007]
既存のASRシステムは、多種多様な話し言葉にまたがる範囲と一般化において不足している。
アラビア語圏の様々な地域では、英語やフランス語とのコードスイッチも一般的である。
音声アラビアの複数の変種を効果的に認識するために最適化された一連のASRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-07T22:23:30Z) - ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - Language Models as a Service: Overview of a New Paradigm and its
Challenges [47.75762014254756]
現在最も強力な言語モデルはプロプライエタリなシステムであり、(典型的には制限のある)Webやプログラミングでのみアクセス可能である。
本稿では,LMインタフェースのアクセシビリティ,複製性,信頼性,信頼性の障害となる課題について述べる。
一方で、現在のメジャーなLMに関する既存の知識の総合的なリソースとして機能し、インターフェースが提供するライセンスと機能の概要を総合的に提供する。
論文 参考訳(メタデータ) (2023-09-28T16:29:52Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。