論文の概要: A Novel Speech Analysis and Correction Tool for Arabic-Speaking Children
- arxiv url: http://arxiv.org/abs/2411.13592v1
- Date: Mon, 18 Nov 2024 09:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:26.519080
- Title: A Novel Speech Analysis and Correction Tool for Arabic-Speaking Children
- Title(参考訳): アラビア語話者のための新しい音声分析と補正ツール
- Authors: Lamia Berriche, Maha Driss, Areej Ahmed Almuntashri, Asma Mufreh Lghabi, Heba Saleh Almudhi, Munerah Abdul-Aziz Almansour,
- Abstract要約: 本稿では、発音に問題を抱えるアラビア語の子供を対象に、ArPAという新しいアプリケーションを紹介した。
本アプリケーションは診断モジュールと治療モジュールの2つの重要なコンポーネントから構成される。
診断プロセスでは、子供の音声信号をキャプチャし、前処理し、K-Nearest Neighbors(KNN)、Support Vector Machine(SVM)、Decision Treesといったさまざまな機械学習分類器を使用して分析する。
治療モジュールは、それぞれの正しく話された文字がより高いアバターレベルを獲得し、子供の発音改善に肯定的な強化を与える、アイキャッチ・ギャミファイドインターフェースを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces a new application named ArPA for Arabic kids who have trouble with pronunciation. Our application comprises two key components: the diagnostic module and the therapeutic module. The diagnostic process involves capturing the child's speech signal, preprocessing, and analyzing it using different machine learning classifiers like K-Nearest Neighbors (KNN), Support Vector Machine (SVM), and Decision Trees as well as deep neural network classifiers like ResNet18. The therapeutic module offers eye-catching gamified interfaces in which each correctly spoken letter earns a higher avatar level, providing positive reinforcement for the child's pronunciation improvement. Two datasets were used for experimental evaluation: one from a childcare centre and the other including Arabic alphabet pronunciation recordings. Our work uses a novel technique for speech recognition using Melspectrogram and MFCC images. The results show that the ResNet18 classifier on speech-to-image converted data effectively identifies mispronunciations in Arabic speech with an accuracy of 99.015\% with Mel-Spectrogram images outperforming ResNet18 with MFCC images.
- Abstract(参考訳): 本稿では、発音に問題を抱えるアラビア語の子供を対象に、ArPAという新しいアプリケーションを紹介した。
本アプリケーションは診断モジュールと治療モジュールの2つの重要なコンポーネントから構成される。
K-Nearest Neighbors(KNN)、Support Vector Machine(SVM)、Decision Treesといったさまざまな機械学習分類器と、ResNet18のようなディープニューラルネットワーク分類器を使用して、子供の音声信号をキャプチャし、前処理し、分析する。
治療モジュールは、それぞれの正しく話された文字がより高いアバターレベルを獲得し、子供の発音改善に肯定的な強化を与える、アイキャッチ・ギャミファイドインターフェースを提供する。
2つのデータセットを用いて実験を行った。1つは保育所からのもので、もう1つはアラビア文字の発音記録を含む。
我々の研究は,Melspectrogram と MFCC 画像を用いた音声認識の新しい手法を用いている。
その結果、音声画像変換データ上のResNet18分類器は、MFCC画像でResNet18を上回るMel-Spectrogram画像と99.015\%の精度で、アラビア語音声の誤認識を効果的に識別することがわかった。
関連論文リスト
- Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Cross-Attention Fusion of Visual and Geometric Features for Large
Vocabulary Arabic Lipreading [3.502468086816445]
リップリーディングは、唇とその周辺領域の動きを分析することによって、音声の認識に視覚データを使用する。
近年の深層学習に基づく研究は,口域から抽出した視覚的特徴を唇輪郭の目印点と統合することを目的としている。
本稿では,ビデオ中の音声単語を予測するために,大語彙アラビア語彙に対するクロスアテンション融合に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-18T09:22:58Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。