論文の概要: Quran Recitation Recognition using End-to-End Deep Learning
- arxiv url: http://arxiv.org/abs/2305.07034v1
- Date: Wed, 10 May 2023 18:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 15:05:22.930353
- Title: Quran Recitation Recognition using End-to-End Deep Learning
- Title(参考訳): エンド・ツー・エンド深層学習によるクランチリテーション認識
- Authors: Ahmad Al Harere, Khloud Al Jallad
- Abstract要約: クルランはイスラム教の聖典であり、その引用は宗教の重要な側面である。
聖クラーンの朗読が自動的に認められることは、その独特の規則のために難しい課題である。
本稿では,神聖クラーンの朗読を認識するための新しいエンド・ツー・エンド深層学習モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Quran is the holy scripture of Islam, and its recitation is an important
aspect of the religion. Recognizing the recitation of the Holy Quran
automatically is a challenging task due to its unique rules that are not
applied in normal speaking speeches. A lot of research has been done in this
domain, but previous works have detected recitation errors as a classification
task or used traditional automatic speech recognition (ASR). In this paper, we
proposed a novel end-to-end deep learning model for recognizing the recitation
of the Holy Quran. The proposed model is a CNN-Bidirectional GRU encoder that
uses CTC as an objective function, and a character-based decoder which is a
beam search decoder. Moreover, all previous works were done on small private
datasets consisting of short verses and a few chapters of the Holy Quran. As a
result of using private datasets, no comparisons were done. To overcome this
issue, we used a public dataset that has recently been published (Ar-DAD) and
contains about 37 chapters that were recited by 30 reciters, with different
recitation speeds and different types of pronunciation rules. The proposed
model performance was evaluated using the most common evaluation metrics in
speech recognition, word error rate (WER), and character error rate (CER). The
results were 8.34% WER and 2.42% CER. We hope this research will be a baseline
for comparisons with future research on this public new dataset (Ar-DAD).
- Abstract(参考訳): クルランはイスラム教の聖典であり、その引用は宗教の重要な側面である。
聖クルアーンの朗読を自動で認識することは、通常の話し言葉には適用されない独特の規則のために難しい課題である。
この領域では多くの研究が行われてきたが、これまでの研究では、リサイクリングエラーを分類タスクや従来の自動音声認識(ASR)として検出してきた。
本稿では,神聖クレーンの朗読を認識できる新しいエンド・ツー・エンド深層学習モデルを提案する。
提案方式は,CTCを目的関数とするCNN-Bidirectional GRUエンコーダと,ビームサーチデコーダである文字ベースのデコーダである。
さらに、以前の全ての作品は、短い詩と聖クラーンのいくつかの章からなる小さな私的なデータセットでなされた。
プライベートデータセットを使用した結果、比較は行われなかった。
この問題を解決するために、我々は最近公開されたパブリックデータセット(Ar-DAD)を使用し、30のリサイターによって暗唱された約37の章を含む。
提案モデルの性能は,音声認識,単語誤り率(WER),文字誤り率(CER)において最も一般的な評価指標を用いて評価した。
結果は8.34% WERと2.42% CERであった。
この研究が、このパブリックな新しいデータセット(Ar-DAD)に関する将来の研究と比較するためのベースラインになることを願っている。
関連論文リスト
- Quranic Audio Dataset: Crowdsourced and Labeled Recitation from Non-Arabic Speakers [1.2124551005857038]
本稿では、アラビア語以外の話者に対して、クアン語を引用する学習の課題について論じる。
我々はボランティアベースのクラウドソーシングのジャンルを用いて、オーディオ資産を集めるためにクラウドソーシングAPIを実装している。
我々は、11カ国以上にわたる1287人の参加者のプールから、約7000人のクラーニックのリサイクリングを収集しました。
論文 参考訳(メタデータ) (2024-05-04T14:29:05Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Quranic Conversations: Developing a Semantic Search tool for the Quran
using Arabic NLP Techniques [0.7673339435080445]
クラーンの聖典は、約23年間にわたって預言者ムハンマド(英語版)(PBUH)に明かされたように、神(アッラー)の文字通りの言葉であると考えられている。
ムスリムにとって、問題や関心の探求に関連するすべてのアヤ(詩)を入手することは困難である。
ユーザの質問やプロンプトに関連する句を検索するQuranセマンティック検索ツールを開発した。
論文 参考訳(メタデータ) (2023-11-09T03:14:54Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Mispronunciation Detection of Basic Quranic Recitation Rules using Deep
Learning [0.0]
イスラム教では、読み手はタイウェド規則と呼ばれる一連の発音規則を適用して、クルランを引用しなければならない。
タジュウェドの教師の数は、現在、すべてのムスリムにとって毎日のリサイクリングの練習には不十分である。
本稿では,Mel-Frequency Cepstral Coefficient (MFCC) とLong Short-Term Memory (LSTM) ニューラルネットワークを組み合わせた時系列モデルを提案する。
論文 参考訳(メタデータ) (2023-05-10T19:31:25Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - DTW at Qur'an QA 2022: Utilising Transfer Learning with Transformers for
Question Answering in a Low-resource Domain [10.172732008860539]
機械読解に関する研究は、宗教文書を含むいくつかの領域で研究されている。
QA 2022の共通課題の目標は、このギャップを埋めることである。
論文 参考訳(メタデータ) (2022-05-12T11:17:23Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。