論文の概要: Enhancing Quranic Learning: A Multimodal Deep Learning Approach for Arabic Phoneme Recognition
- arxiv url: http://arxiv.org/abs/2511.17477v1
- Date: Fri, 21 Nov 2025 18:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.165725
- Title: Enhancing Quranic Learning: A Multimodal Deep Learning Approach for Arabic Phoneme Recognition
- Title(参考訳): クラニックラーニングの強化:アラビア音素認識のためのマルチモーダル深層学習アプローチ
- Authors: Ayhan Kucukmanisa, Derya Gelmez, Sukru Selim Calik, Zeynep Hilal Kilimci,
- Abstract要約: 本研究では、アラビア音素誤発音検出のためのトランスフォーマーに基づくマルチモーダルフレームワークを提案する。
このフレームワークは、UniSpeech由来の音響埋め込みとWhisper転写から抽出されたBERTベースのテキスト埋め込みを統合する。
この研究は、インテリジェントで話者に依存しないマルチモーダル・コンピュータ支援言語学習(CALL)システムの開発に寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in multimodal deep learning have greatly enhanced the capability of systems for speech analysis and pronunciation assessment. Accurate pronunciation detection remains a key challenge in Arabic, particularly in the context of Quranic recitation, where subtle phonetic differences can alter meaning. Addressing this challenge, the present study proposes a transformer-based multimodal framework for Arabic phoneme mispronunciation detection that combines acoustic and textual representations to achieve higher precision and robustness. The framework integrates UniSpeech-derived acoustic embeddings with BERT-based textual embeddings extracted from Whisper transcriptions, creating a unified representation that captures both phonetic detail and linguistic context. To determine the most effective integration strategy, early, intermediate, and late fusion methods were implemented and evaluated on two datasets containing 29 Arabic phonemes, including eight hafiz sounds, articulated by 11 native speakers. Additional speech samples collected from publicly available YouTube recordings were incorporated to enhance data diversity and generalization. Model performance was assessed using standard evaluation metrics: accuracy, precision, recall, and F1-score, allowing a detailed comparison of the fusion strategies. Experimental findings show that the UniSpeech-BERT multimodal configuration provides strong results and that fusion-based transformer architectures are effective for phoneme-level mispronunciation detection. The study contributes to the development of intelligent, speaker-independent, and multimodal Computer-Aided Language Learning (CALL) systems, offering a practical step toward technology-supported Quranic pronunciation training and broader speech-based educational applications.
- Abstract(参考訳): マルチモーダルディープラーニングの最近の進歩は、音声分析と発音評価のためのシステムの能力を大幅に向上させてきた。
正確な発音検出は、アラビア語において重要な課題であり、特に、微妙な発音の違いが意味を変えるクラーン語の引用の文脈においてである。
この課題に対処するため,アラビア音素誤発音検出のためのトランスフォーマーに基づくマルチモーダルフレームワークを提案する。
このフレームワークは、UniSpeech由来の音響埋め込みと、Whisper文字から抽出されたBERTベースのテキスト埋め込みを統合し、音声のディテールと言語コンテキストの両方をキャプチャする統一表現を作成する。
最も効果的な統合戦略を決定するために,11人の母語話者による8つのハフィズ音を含む29のアラビア音素を含む2つのデータセットを用いて,早期,中期,後期の融合手法を実装し,評価した。
公開されているYouTube録音から収集された追加の音声サンプルは、データの多様性と一般化を高めるために組み込まれた。
モデル性能は、精度、精度、リコール、F1スコアといった標準的な評価基準を用いて評価され、融合戦略の詳細な比較を可能にした。
実験により、UniSpeech-BERTマルチモーダル構成は強い結果をもたらし、融合型トランスフォーマーアーキテクチャは音素レベルの誤発音検出に有効であることが示された。
この研究は、インテリジェントで、話者に依存しない、マルチモーダルなコンピュータ支援言語学習(CALL)システムの開発に寄与し、テクノロジーが支援するクラン語発音訓練と幅広い音声ベースの教育応用への実践的なステップを提供する。
関連論文リスト
- ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction [88.41471266579333]
本稿では,大規模言語モデル(LLM)からの言語知識をAV-TSEモデルに組み込む新しいフレームワークであるELEGANCEを提案する。
2つのAV-TSEバックボーン上でのRoBERTa、Qwen3-0.6B、Qwen3-4Bによる総合的な実験は大幅に改善された。
論文 参考訳(メタデータ) (2025-11-09T08:50:11Z) - Accent-Invariant Automatic Speech Recognition via Saliency-Driven Spectrogram Masking [1.108292291257035]
本稿ではアクセントと方言の分類を認識パイプラインに統合するアクセント不変のASRフレームワークを提案する。
我々のアプローチは、アクセント固有の手がかりを捉え、その予測に最も影響を及ぼす領域をマスキングするためにスペクトログラムベースの分類器を訓練し、データ拡張にマスク付きスペクトログラムを使用することである。
ペルシャ語では、複数の地域アクセントにまたがる新たに収集されたデータセットを導入し、ペルシャ語ASRにおけるアクセント変動のシステマティックなベンチマークを確立した。
論文 参考訳(メタデータ) (2025-10-10T16:41:53Z) - ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection [2.5962590697722447]
アラビア語スプーフ音声データセットを初めて紹介する。
以上の結果から,FishSpeechはカサブランカコーパスのアラビア語音声クローニングにおいて,他のTSモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-09-26T18:11:20Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Bridging the Gap: An Intermediate Language for Enhanced and Cost-Effective Grapheme-to-Phoneme Conversion with Homographs with Multiple Pronunciations Disambiguation [0.0]
本稿ではペルシャ語処理に特化して設計された中間言語を紹介する。
提案手法は,Large Language Model (LLM) のプロンプト技術と,特殊なシーケンス・ツー・シーケンス・マシン・トランスリテラルアーキテクチャの2つの重要なコンポーネントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-05-10T11:10:48Z) - A Cascaded Architecture for Extractive Summarization of Multimedia Content via Audio-to-Text Alignment [0.0]
本研究は,音声-テキストアライメントによるマルチメディアコンテンツの抽出要約のためのカスケードアーキテクチャを提案する。
Microsoft Azure Speechを使った音声からテキストへの変換と、Whisper、Pegasus、Facebook BART XSumといった高度な抽出要約モデルを統合する。
ROUGEとF1スコアを用いた評価は,従来の要約手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-03-06T13:59:14Z) - Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning [0.0]
生成支援型マルチモーダルクエリは入力音声のテキスト記述を生成し、マルチモーダルクエリを可能にする。
我々は,AudioCaps,Clotho,Auto-ACDの実験を行い,現状の成果が得られたことを実証した。
論文 参考訳(メタデータ) (2024-10-14T04:57:32Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。