論文の概要: Harf-Speech: A Clinically Aligned Framework for Arabic Phoneme-Level Speech Assessment
- arxiv url: http://arxiv.org/abs/2604.06191v1
- Date: Wed, 11 Mar 2026 04:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.612373
- Title: Harf-Speech: A Clinically Aligned Framework for Arabic Phoneme-Level Speech Assessment
- Title(参考訳): Harf-Speech:アラビア音素レベル音声評価のための臨床応用フレームワーク
- Authors: Asif Azad, MD Sadik Hossain Shanto, Mohammad Sadat Hossain, Bdour Alwuqaysi, Sabri Boughorbel, Yahya Bokhari, Abdulrhman Aljouie, Ayah Othman Sindi, Ehsan Hoque,
- Abstract要約: Harf-Speechは、アラビア語の発音を臨床レベルで評価するモジュールシステムである。
Harf-Speech は Pearson の0.791 と ICC (2,1) の0.659 の相関値を得た。
- 参考スコア(独自算出の注目度): 1.0898519359579681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated phoneme-level pronunciation assessment is vital for scalable speech therapy and language learning, yet validated tools for Arabic remain scarce. We present Harf-Speech, a modular system scoring Arabic pronunciation at the phoneme level on a clinical scale. It combines an MSA phonetizer, a fine-tuned speech-to-phoneme model, Levenshtein alignment, and a blended scorer using longest common subsequence and edit-distance metrics. We fine-tune three ASR architectures on Arabic phoneme data and benchmark them with zero-shot multimodal models; the best, OmniASR-CTC-1B-v2, achieves 8.92\% phoneme error rate. Three certified speech-language pathologists independently scored 40 utterances for clinical validation. Harf-Speech attains a Pearson correlation of 0.791 and ICC(2,1) of 0.659 with mean expert scores, outperforming existing end-to-end assessment frameworks. These results show Harf-Speech yields clinically aligned, interpretable scores comparable to inter-rater expert agreement.
- Abstract(参考訳): 音素レベルの自動発音評価は、スケーラブルな音声治療や言語学習には不可欠だが、アラビア語のための検証済みのツールはほとんど残っていない。
Harf-Speechは,アラビア語の発音を音素レベルで臨床的に評価するモジュールシステムである。
MSAの発声器、微調整された音声-音素モデル、Levenshteinアライメント、および最長の共通サブシーケンスと編集距離のメトリクスを使用したブレンドスコアラーを組み合わせる。
我々は、アラビア音素データ上に3つのASRアーキテクチャを微調整し、ゼロショットマルチモーダルモデルでベンチマークし、最も優れたOmniASR-CTC-1B-v2は8.92 %の音素誤り率を達成する。
認定された3人の言語病理医が臨床検査のためにそれぞれ40発の発声を行った。
Harf-Speech は Pearson の0.791 と ICC(2,1) の相関を 0.659 の平均エキスパートスコアで達成し、既存のエンドツーエンドアセスメントフレームワークを上回っている。
これらの結果から,Harf-Speechは臨床に整合し,解釈可能なスコアを,専門家間の合意に匹敵する結果を得た。
関連論文リスト
- Multilingual Dysarthric Speech Assessment Using Universal Phone Recognition and Language-Specific Phonemic Contrast Modeling [22.333214778384487]
変形を伴う神経疾患の流行は、自動的な知能評価方法の必要性を動機付けている。
本稿では,音声認識と言語固有の音素解釈を統合した多言語音素生成評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T03:12:11Z) - Enhancing Quranic Learning: A Multimodal Deep Learning Approach for Arabic Phoneme Recognition [0.0]
本研究では、アラビア音素誤発音検出のためのトランスフォーマーに基づくマルチモーダルフレームワークを提案する。
このフレームワークは、UniSpeech由来の音響埋め込みとWhisper転写から抽出されたBERTベースのテキスト埋め込みを統合する。
この研究は、インテリジェントで話者に依存しないマルチモーダル・コンピュータ支援言語学習(CALL)システムの開発に寄与する。
論文 参考訳(メタデータ) (2025-11-21T18:25:46Z) - Automatic Pronunciation Error Detection and Correction of the Holy Quran's Learners Using Deep Learning [0.0]
高品質なQuranicデータセットを生成するために、98%の自動パイプラインを構築しています。
私たちはカスタムのQuran Phonetic Scriptを使ってTajweedルールをエンコードしています。
すべてのコード、データ、モデルをオープンソースとしてリリースしています。
論文 参考訳(メタデータ) (2025-08-27T15:28:46Z) - Towards stable AI systems for Evaluating Arabic Pronunciations [0.7999703756441757]
この音素レベルの課題は、単独の文字には共調的手がかりがなく、語彙的文脈がなく、数百ミリ秒しか持たないため、困難であることを示す。
本研究は、アラビア文字の多様で分類されたコーパスを導入し、最先端のwav2vec 2.0モデルが35%の精度しか達成していないことを示す。
論文 参考訳(メタデータ) (2025-08-27T05:49:15Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。