Fugu-MT 論文翻訳(概要): ASMDD: Arabic Speech Mispronunciation Detection Dataset

論文の概要: ASMDD: Arabic Speech Mispronunciation Detection Dataset

arxiv url: http://arxiv.org/abs/2111.01136v1
Date: Mon, 1 Nov 2021 16:50:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-03 12:44:25.171696
Title: ASMDD: Arabic Speech Mispronunciation Detection Dataset
Title（参考訳）: ASMDD:アラビア音声誤認識検出データセット
Authors: Salah A. Aly, Abdelrahman Salah, Hesham M. Eraqi
Abstract要約: このデータセットは、アラビア語でよく使われる上位100語を表す注釈付きオーディオファイルで構成されている。データセットは、専門家リスナーによるセグメント発音誤り検出に基づいて収集、注釈付けされる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The largest dataset of Arabic speech mispronunciation detections in Egyptian dialogues is introduced. The dataset is composed of annotated audio files representing the top 100 words that are most frequently used in the Arabic language, pronounced by 100 Egyptian children (aged between 2 and 8 years old). The dataset is collected and annotated on segmental pronunciation error detections by expert listeners.
Abstract（参考訳）: エジプト語対話におけるアラビア語の誤発音検出の最大のデータセットを紹介する。データセットは、アラビア語で最も頻繁に使われる上位100語を表す注釈付きオーディオファイルで構成されており、100人のエジプト人の子供(2歳から8歳)が発音している。データセットは、専門家リスナーによるセグメント発音誤り検出に基づいて収集、注釈付けされる。

関連論文リスト

ARCADE: A City-Scale Corpus for Fine-Grained Arabic Dialect Tagging [4.23980289430769]
我々は、都市レベルの方言の粒度を明示的に設計した最初のアラビア語音声データセットARCADEを提示する。コーパスは、アラブ世界のストリーミングサービスから収集されたアラビアのラジオ音声で構成されている。その結果得られたコーパスは、19か国58都市にまたがる6,907のアノテーションと3,790のユニークなオーディオセグメントで構成されている。
論文参考訳（メタデータ） (2026-01-05T15:32:17Z)
LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect [0.9772968596463595]
本稿では,チュニジア・アラビア方言の音韻的・語彙的特徴を捉えたLinTOデータセットを提案する。これらのデータセットには、さまざまなソースからのさまざまなテキストと、多様な話者を特徴とする実世界のオーディオサンプルが含まれている。
論文参考訳（メタデータ） (2025-04-03T14:05:56Z)
Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-07-03T11:30:03Z)
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文参考訳（メタデータ） (2024-06-10T11:28:29Z)
YODAS: Youtube-Oriented Dataset for Audio and Speech [47.60574092241447]
YODASは100以上の言語で500k時間以上の音声データからなる大規模多言語データセットである。手動または自動の字幕を含むラベル付きサブセットは、教師付きモデルトレーニングを促進する。 YODASはその規模で最初に公開されたデータセットであり、Creative Commonsライセンスの下で配布されている。
論文参考訳（メタデータ） (2024-06-02T23:43:27Z)
ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。 AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文参考訳（メタデータ） (2023-10-20T18:07:39Z)
Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain [6.10917825357379]
アラビア語を分離する手法を評価するためのベンチマークデータセットを提案する。このデータセットには、シャリア・アリスラムの本から約223,690語が含まれており、専門家によってラベル付けされている。
論文参考訳（メタデータ） (2023-06-22T16:50:40Z)
An ensemble-based framework for mispronunciation detection of Arabic phonemes [0.0]
この研究は、アラビア語の音素の誤発音を定義するアンサンブルモデルを導入している。実験結果から,メル分光法の特徴抽出手法を用いたアンサンブルアルゴリズムによる投票は,95.9%の精度で顕著な分類結果を示した。
論文参考訳（メタデータ） (2023-01-03T22:17:08Z)
ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文参考訳（メタデータ） (2022-09-06T22:48:29Z)
Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech Dataset [51.75617364782418]
本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。 MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
論文参考訳（メタデータ） (2022-03-31T07:01:06Z)
Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文参考訳（メタデータ） (2022-03-23T03:19:35Z)
QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文参考訳（メタデータ） (2021-06-24T13:20:40Z)
Phoneme Recognition through Fine Tuning of Phonetic Representations: a Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文参考訳（メタデータ） (2021-04-04T15:07:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。