論文の概要: Quranic Audio Dataset: Crowdsourced and Labeled Recitation from Non-Arabic Speakers
- arxiv url: http://arxiv.org/abs/2405.02675v1
- Date: Sat, 4 May 2024 14:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 19:01:15.129395
- Title: Quranic Audio Dataset: Crowdsourced and Labeled Recitation from Non-Arabic Speakers
- Title(参考訳): Quranic Audio Dataset:非アラビア話者からのクラウドソーシングとラベリング
- Authors: Raghad Salameh, Mohamad Al Mdfaa, Nursultan Askarbekuly, Manuel Mazzara,
- Abstract要約: 本稿では、アラビア語以外の話者に対して、クアン語を引用する学習の課題について論じる。
我々はボランティアベースのクラウドソーシングのジャンルを用いて、オーディオ資産を集めるためにクラウドソーシングAPIを実装している。
我々は、11カ国以上にわたる1287人の参加者のプールから、約7000人のクラーニックのリサイクリングを収集しました。
- 参考スコア(独自算出の注目度): 1.2124551005857038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of learning to recite the Quran for non-Arabic speakers. We explore the possibility of crowdsourcing a carefully annotated Quranic dataset, on top of which AI models can be built to simplify the learning process. In particular, we use the volunteer-based crowdsourcing genre and implement a crowdsourcing API to gather audio assets. We integrated the API into an existing mobile application called NamazApp to collect audio recitations. We developed a crowdsourcing platform called Quran Voice for annotating the gathered audio assets. As a result, we have collected around 7000 Quranic recitations from a pool of 1287 participants across more than 11 non-Arabic countries, and we have annotated 1166 recitations from the dataset in six categories. We have achieved a crowd accuracy of 0.77, an inter-rater agreement of 0.63 between the annotators, and 0.89 between the labels assigned by the algorithm and the expert judgments.
- Abstract(参考訳): 本稿では、アラビア語以外の話者に対して、クアン語を引用する学習の課題について論じる。
我々は、慎重に注釈付けされたQuranicデータセットをクラウドソーシングして、学習プロセスを単純化するためにAIモデルを構築できる可能性を探る。
特に,ボランティアベースのクラウドソーシングのジャンルを用いて,オーディオ資産収集のためのクラウドソーシングAPIを実装している。
私たちはこのAPIを、NamazAppという既存のモバイルアプリに統合し、音声のリサイクリングを収集しました。
収集したオーディオ資産に注釈をつけるために,Quran Voiceというクラウドソーシングプラットフォームを開発した。
その結果、11カ国以上の1287人の参加者のプールから約7000人のクラニック・リサイクリングを収集し、このデータセットから6つのカテゴリで1166件のリサイクリングを注釈付けした。
我々は,アルゴリズムによって割り当てられたラベルと専門家の判断との間には,0.77,0.63のアノテータ間合意,0.89のアノテータ間合意を達成している。
関連論文リスト
- Quran Recitation Recognition using End-to-End Deep Learning [0.0]
クルランはイスラム教の聖典であり、その引用は宗教の重要な側面である。
聖クラーンの朗読が自動的に認められることは、その独特の規則のために難しい課題である。
本稿では,神聖クラーンの朗読を認識するための新しいエンド・ツー・エンド深層学習モデルを提案する。
論文 参考訳(メタデータ) (2023-05-10T18:40:01Z) - An ensemble-based framework for mispronunciation detection of Arabic
phonemes [0.0]
この研究は、アラビア語の音素の誤発音を定義するアンサンブルモデルを導入している。
実験結果から,メル分光法の特徴抽出手法を用いたアンサンブルアルゴリズムによる投票は,95.9%の精度で顕著な分類結果を示した。
論文 参考訳(メタデータ) (2023-01-03T22:17:08Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy
Qur'an Using a Post-Processed Ensemble of BERT-based Models [0.0]
アラビア語は神聖なクルアーンの言語であり、世界中の18億人の人々の神聖なテキストである。
本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。
本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。
論文 参考訳(メタデータ) (2022-06-03T13:00:48Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - The Interspeech Zero Resource Speech Challenge 2021: Spoken language
modelling [19.525392906001624]
本稿では,テキストやラベルを使わずに,音声から直接言語モデルを学ぶよう参加者に求めるゼロリソース音声チャレンジ2021を紹介する。
課題はLibri-lightデータセットに基づいており、関連するテキストなしで英語のオーディオブックから最大60k時間のオーディオを提供します。
論文 参考訳(メタデータ) (2021-04-29T23:53:37Z) - Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文 参考訳(メタデータ) (2020-07-02T15:55:54Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。