論文の概要: Automatic Pronunciation Error Detection and Correction of the Holy Quran's Learners Using Deep Learning
- arxiv url: http://arxiv.org/abs/2509.00094v1
- Date: Wed, 27 Aug 2025 15:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.074307
- Title: Automatic Pronunciation Error Detection and Correction of the Holy Quran's Learners Using Deep Learning
- Title(参考訳): 深層学習を用いた聖クラン学習者の発音誤りの自動検出と訂正
- Authors: Abdullah Abdelfattah, Mahmoud I. Khalil, Hazem Abbas,
- Abstract要約: 高品質なQuranicデータセットを生成するために、98%の自動パイプラインを構築しています。
私たちはカスタムのQuran Phonetic Scriptを使ってTajweedルールをエンコードしています。
すべてのコード、データ、モデルをオープンソースとしてリリースしています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Assessing spoken language is challenging, and quantifying pronunciation metrics for machine learning models is even harder. However, for the Holy Quran, this task is simplified by the rigorous recitation rules (tajweed) established by Muslim scholars, enabling highly effective assessment. Despite this advantage, the scarcity of high-quality annotated data remains a significant barrier. In this work, we bridge these gaps by introducing: (1) A 98% automated pipeline to produce high-quality Quranic datasets -- encompassing: Collection of recitations from expert reciters, Segmentation at pause points (waqf) using our fine-tuned wav2vec2-BERT model, Transcription of segments, Transcript verification via our novel Tasmeea algorithm; (2) 850+ hours of audio (~300K annotated utterances); (3) A novel ASR-based approach for pronunciation error detection, utilizing our custom Quran Phonetic Script (QPS) to encode Tajweed rules (unlike the IPA standard for Modern Standard Arabic). QPS uses a two-level script: (Phoneme level): Encodes Arabic letters with short/long vowels. (Sifa level): Encodes articulation characteristics of every phoneme. We further include comprehensive modeling with our novel multi-level CTC Model which achieved 0.16% average Phoneme Error Rate (PER) on the testset. We release all code, data, and models as open-source: https://obadx.github.io/prepare-quran-dataset/
- Abstract(参考訳): 音声言語の評価は困難であり、機械学習モデルの発音メトリクスの定量化はさらに難しい。
しかし、聖クラーンでは、ムスリムの学者によって確立された厳格な朗読規則(tajweed)によって簡略化され、非常に効果的な評価が可能となった。
この利点にもかかわらず、高品質な注釈付きデータの不足は依然として大きな障壁である。
高品質なQuranicデータセットを生成するための98%の自動パイプライン -- 専門家のリサイタからの引用の収集、微調整されたwav2vec2-BERTモデルを使用した停止点(waqf)でのセグメンテーション、セグメントの転写、新しいTasmeeaアルゴリズムによるトランスクリプト検証、新しい850時間以上のオーディオ(〜300Kの注釈付き発話)、カスタムのQuran Phonetic Script(QPS)を使用して、Tajweedルールを符号化するためのASRベースの新しいアプローチ(標準アラビア語のIPA標準とは違って)。
QPSは2段階の文字を使用する: (Phoneme level): アラビア語の文字を短い母音と長い母音でエンコードする。
(Sifaレベル):各音素の調音特性を符号化する。
さらに、テストセット上で平均音素誤り率(PER)を0.16%達成した、新しいマルチレベルCTCモデルによる包括的モデリングについても紹介する。
https://obadx.github.io/prepare-quran-dataset/
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Few-Shot Prompting for Extractive Quranic QA with Instruction-Tuned LLMs [1.0124625066746595]
複雑な言語、独特な用語、そしてテキストにおける深い意味に関する課題に対処する。
2つ目は、GeminiやDeepSeekのような命令調整された大きな言語モデルで、ほとんどショットプロンプトを使用しない。
スパン抽出のための特殊アラビアプロンプトフレームワークが開発されている。
論文 参考訳(メタデータ) (2025-08-08T08:02:59Z) - Cross-Language Approach for Quranic QA [1.0124625066746595]
クルアーンのQAシステムは、世界中の10億人以上の人々のための神聖なテキストであるクルアーンの深い理解を促進するため、重要な重要性を保っている。
これらのシステムは、現代標準アラビア語で書かれた質問と、古典アラビア語で書かれたクラーン語の詩で見つかった回答の言語的相違など、固有の課題に直面している。
我々は、機械翻訳を通じてデータセットを拡張して強化し、アラビア語の質問を英語に翻訳し、アラビア語の質問を言い換えて言語的多様性を創出し、クァラン語の英訳から回答を抽出し、多言語学習要件に適合させることにより、クロスランゲージのアプローチを採用する。
論文 参考訳(メタデータ) (2025-01-29T07:13:27Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Quranic Audio Dataset: Crowdsourced and Labeled Recitation from Non-Arabic Speakers [1.2124551005857038]
本稿では、アラビア語以外の話者に対して、クアン語を引用する学習の課題について論じる。
我々はボランティアベースのクラウドソーシングのジャンルを用いて、オーディオ資産を集めるためにクラウドソーシングAPIを実装している。
我々は、11カ国以上にわたる1287人の参加者のプールから、約7000人のクラーニックのリサイクリングを収集しました。
論文 参考訳(メタデータ) (2024-05-04T14:29:05Z) - Mispronunciation Detection of Basic Quranic Recitation Rules using Deep
Learning [0.0]
イスラム教では、読み手はタイウェド規則と呼ばれる一連の発音規則を適用して、クルランを引用しなければならない。
タジュウェドの教師の数は、現在、すべてのムスリムにとって毎日のリサイクリングの練習には不十分である。
本稿では,Mel-Frequency Cepstral Coefficient (MFCC) とLong Short-Term Memory (LSTM) ニューラルネットワークを組み合わせた時系列モデルを提案する。
論文 参考訳(メタデータ) (2023-05-10T19:31:25Z) - Quran Recitation Recognition using End-to-End Deep Learning [0.0]
クルランはイスラム教の聖典であり、その引用は宗教の重要な側面である。
聖クラーンの朗読が自動的に認められることは、その独特の規則のために難しい課題である。
本稿では,神聖クラーンの朗読を認識するための新しいエンド・ツー・エンド深層学習モデルを提案する。
論文 参考訳(メタデータ) (2023-05-10T18:40:01Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。