論文の概要: Quran-MD: A Fine-Grained Multilingual Multimodal Dataset of the Quran
- arxiv url: http://arxiv.org/abs/2601.17880v1
- Date: Sun, 25 Jan 2026 15:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.509134
- Title: Quran-MD: A Fine-Grained Multilingual Multimodal Dataset of the Quran
- Title(参考訳): Quran-MD:Quranの細粒度多言語マルチモーダルデータセット
- Authors: Muhammad Umar Salman, Mohammad Areeb Qazi, Mohammed Talha Alam,
- Abstract要約: Quran MDはQuranの包括的なデータセットであり、詩や単語レベルでテキスト、言語、音声の次元を統合する。
このデータセットは自然言語処理、音声認識、音声合成、言語分析、デジタルイスラム研究など様々な応用をサポートしている。
- 参考スコア(独自算出の注目度): 1.3481884955361023
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present Quran MD, a comprehensive multimodal dataset of the Quran that integrates textual, linguistic, and audio dimensions at the verse and word levels. For each verse (ayah), the dataset provides its original Arabic text, English translation, and phonetic transliteration. To capture the rich oral tradition of Quranic recitation, we include verse-level audio from 32 distinct reciters, reflecting diverse recitation styles and dialectical nuances. At the word level, each token is paired with its corresponding Arabic script, English translation, transliteration, and an aligned audio recording, allowing fine-grained analysis of pronunciation, phonology, and semantic context. This dataset supports various applications, including natural language processing, speech recognition, text-to-speech synthesis, linguistic analysis, and digital Islamic studies. Bridging text and audio modalities across multiple reciters, this dataset provides a unique resource to advance computational approaches to Quranic recitation and study. Beyond enabling tasks such as ASR, tajweed detection, and Quranic TTS, it lays the foundation for multimodal embeddings, semantic retrieval, style transfer, and personalized tutoring systems that can support both research and community applications. The dataset is available at https://huggingface.co/datasets/Buraaq/quran-audio-text-dataset
- Abstract(参考訳): 本稿では,Quran MD について述べる。Quran MD は,テキスト,言語,音声の次元を韻文と単語レベルで統合した,Quran MD の総合的マルチモーダルデータセットである。
それぞれの詩(アヤ)について、データセットはアラビア語の原文、英訳、音訳を提供する。
クラーニック・リサイクリングの豊かな口承の伝統を捉えるため、32の異なるリサイクターからの韻律レベルの音声を収録し、多様なリサイクリングスタイルと方言のニュアンスを反映する。
単語レベルでは、それぞれのトークンは対応するアラビア文字、英訳、音訳、および一致した音声記録と組み合わせられ、発音、音韻、意味的文脈のきめ細かい分析を可能にする。
このデータセットは自然言語処理、音声認識、音声合成、言語分析、デジタルイスラム研究など様々な応用をサポートしている。
このデータセットは、複数のリサイタにまたがるテキストとオーディオのモダリティをブリッジすることで、クレーン的リサイクリングと研究への計算アプローチを前進させるためのユニークなリソースを提供する。
ASR、tajweed Detection、Quranic TTSといったタスクを有効にするだけでなく、マルチモーダル埋め込み、セマンティック検索、スタイル転送、そして研究とコミュニティアプリケーションの両方をサポートするパーソナライズされた学習システムの基礎を築いている。
データセットはhttps://huggingface.co/datasets/Buraaq/quran-audio-text-datasetで利用可能である。
関連論文リスト
- Enhancing Quranic Learning: A Multimodal Deep Learning Approach for Arabic Phoneme Recognition [0.0]
本研究では、アラビア音素誤発音検出のためのトランスフォーマーに基づくマルチモーダルフレームワークを提案する。
このフレームワークは、UniSpeech由来の音響埋め込みとWhisper転写から抽出されたBERTベースのテキスト埋め込みを統合する。
この研究は、インテリジェントで話者に依存しないマルチモーダル・コンピュータ支援言語学習(CALL)システムの開発に寄与する。
論文 参考訳(メタデータ) (2025-11-21T18:25:46Z) - Automatic Pronunciation Error Detection and Correction of the Holy Quran's Learners Using Deep Learning [0.0]
高品質なQuranicデータセットを生成するために、98%の自動パイプラインを構築しています。
私たちはカスタムのQuran Phonetic Scriptを使ってTajweedルールをエンコードしています。
すべてのコード、データ、モデルをオープンソースとしてリリースしています。
論文 参考訳(メタデータ) (2025-08-27T15:28:46Z) - A computational system to handle the orthographic layer of tajwid in contemporary Quranic Orthography [0.0]
我々は、カイロ・クルランで遭遇するタジウィドの規則の体系性を探る。
そこで我々は,CQO のQuranic テキストから Tajwid の正書層を除去または付加できる python モジュールを開発した。
論文 参考訳(メタデータ) (2025-05-16T15:41:51Z) - Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。
モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文 参考訳(メタデータ) (2025-04-25T15:31:46Z) - Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.59784436914548]
ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。
予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。
音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文 参考訳(メタデータ) (2025-03-08T16:40:13Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Quranic Audio Dataset: Crowdsourced and Labeled Recitation from Non-Arabic Speakers [1.2124551005857038]
本稿では、アラビア語以外の話者に対して、クアン語を引用する学習の課題について論じる。
我々はボランティアベースのクラウドソーシングのジャンルを用いて、オーディオ資産を集めるためにクラウドソーシングAPIを実装している。
我々は、11カ国以上にわたる1287人の参加者のプールから、約7000人のクラーニックのリサイクリングを収集しました。
論文 参考訳(メタデータ) (2024-05-04T14:29:05Z) - Quran Recitation Recognition using End-to-End Deep Learning [0.0]
クルランはイスラム教の聖典であり、その引用は宗教の重要な側面である。
聖クラーンの朗読が自動的に認められることは、その独特の規則のために難しい課題である。
本稿では,神聖クラーンの朗読を認識するための新しいエンド・ツー・エンド深層学習モデルを提案する。
論文 参考訳(メタデータ) (2023-05-10T18:40:01Z) - Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset [51.75617364782418]
本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
論文 参考訳(メタデータ) (2022-03-31T07:01:06Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。