論文の概要: An ensemble-based framework for mispronunciation detection of Arabic
phonemes
- arxiv url: http://arxiv.org/abs/2301.01378v1
- Date: Tue, 3 Jan 2023 22:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:12:03.300823
- Title: An ensemble-based framework for mispronunciation detection of Arabic
phonemes
- Title(参考訳): アラビア語音素の誤発音検出のためのアンサンブルに基づくフレームワーク
- Authors: Sukru Selim Calik, Ayhan Kucukmanisa, Zeynep Hilal Kilimci
- Abstract要約: この研究は、アラビア語の音素の誤発音を定義するアンサンブルモデルを導入している。
実験結果から,メル分光法の特徴抽出手法を用いたアンサンブルアルゴリズムによる投票は,95.9%の精度で顕著な分類結果を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Determination of mispronunciations and ensuring feedback to users are
maintained by computer-assisted language learning (CALL) systems. In this work,
we introduce an ensemble model that defines the mispronunciation of Arabic
phonemes and assists learning of Arabic, effectively. To the best of our
knowledge, this is the very first attempt to determine the mispronunciations of
Arabic phonemes employing ensemble learning techniques and conventional machine
learning models, comprehensively. In order to observe the effect of feature
extraction techniques, mel-frequency cepstrum coefficients (MFCC), and Mel
spectrogram are blended with each learning algorithm. To show the success of
proposed model, 29 letters in the Arabic phonemes, 8 of which are hafiz, are
voiced by a total of 11 different person. The amount of data set has been
enhanced employing the methods of adding noise, time shifting, time stretching,
pitch shifting. Extensive experiment results demonstrate that the utilization
of voting classifier as an ensemble algorithm with Mel spectrogram feature
extraction technique exhibits remarkable classification result with 95.9% of
accuracy.
- Abstract(参考訳): コンピュータ支援言語学習(call)システムによって誤用判定とユーザへのフィードバックの確保が維持される。
本研究では,アラビア語音素の誤用を定義し,アラビア語学習を効果的に支援するアンサンブルモデルを提案する。
私たちの知る限りでは、これはアンサンブル学習技術と従来の機械学習モデルを用いたアラビア語音素の誤用を包括的に判断する最初の試みです。
特徴抽出手法の効果を観察するために,メル周波数ケプストラム係数(MFCC)とメルスペクトルを各学習アルゴリズムにブレンドする。
提案モデルの成功を示すために、アラビア語音素の29文字のうち8文字がhafizであり、合計11人の異なる人物によって声がかけられる。
ノイズの追加、時間シフト、時間ストレッチ、ピッチシフトの手法を用いて、データセットの量を増加させた。
広範な実験により,メルスペクトログラム特徴抽出手法を用いたアンサンブルアルゴリズムとしての投票分類器の利用により,95.9%の精度で顕著な分類結果が得られた。
関連論文リスト
- Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Efficient Measuring of Readability to Improve Documents Accessibility
for Arabic Language Learners [0.0]
この手法は、テキストの読みと理解の難易度を区別する機械学習の分類法に基づいている。
いくつかのモデルは、オンラインアラビアのウェブサイトから採掘された巨大なコーパスで訓練され、手動で注釈付けされた。
TF-IDFベクトルは単語ベースのユニグラムとビッグラムの組み合わせで訓練され、全体的な精度は4種類の複雑性に対して87.14%であった。
論文 参考訳(メタデータ) (2021-09-09T10:05:38Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。
我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文 参考訳(メタデータ) (2020-10-27T14:29:28Z) - Arabic Offensive Language Detection Using Machine Learning and Ensemble
Machine Learning Approaches [0.0]
この研究は、単一の学習者機械学習アプローチに対してアンサンブル機械学習アプローチを適用することに対する大きな影響を示している。
訓練されたアンサンブル機械学習分類器のうち、バッグングは、F1スコアが88%の攻撃的言語検出において、最高のパフォーマンスを発揮する。
論文 参考訳(メタデータ) (2020-05-16T06:40:36Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。