論文の概要: QVoice: Arabic Speech Pronunciation Learning Application
- arxiv url: http://arxiv.org/abs/2305.07445v1
- Date: Tue, 9 May 2023 07:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-21 11:12:48.091887
- Title: QVoice: Arabic Speech Pronunciation Learning Application
- Title(参考訳): QVoice:アラビア語の発音学習アプリケーション
- Authors: Yassine El Kheir, Fouad Khnaisser, Shammur Absar Chowdhury, Hamdy
Mubarak, Shazia Afzal, Ahmed Ali
- Abstract要約: このアプリケーションは、非ネイティブのアラビア語話者が発音スキルを向上させるために設計されている。
QVoiceは、学習者が意味を理解するのを助けるために様々な学習方法を採用している。
QVoiceで紹介される学習の手がかりは、幅広い意味のある情報を含んでいる。
- 参考スコア(独自算出の注目度): 11.913011065023758
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a novel Arabic pronunciation learning application
QVoice, powered with end-to-end mispronunciation detection and feedback
generator module. The application is designed to support non-native Arabic
speakers in enhancing their pronunciation skills, while also helping native
speakers mitigate any potential influence from regional dialects on their
Modern Standard Arabic (MSA) pronunciation. QVoice employs various learning
cues to aid learners in comprehending meaning, drawing connections with their
existing knowledge of English language, and offers detailed feedback for
pronunciation correction, along with contextual examples showcasing word usage.
The learning cues featured in QVoice encompass a wide range of meaningful
information, such as visualizations of phrases/words and their translations, as
well as phonetic transcriptions and transliterations. QVoice provides
pronunciation feedback at the character level and assesses performance at the
word level.
- Abstract(参考訳): 本稿では、エンドツーエンドの誤発音検出とフィードバック生成モジュールを利用したアラビア語発音学習アプリケーションQVoiceを紹介する。
このアプリケーションは、非ネイティブアラビア語話者が発音スキルを向上させるのを支援すると同時に、ネイティブ話者が現代標準アラビア語(msa)の発音に地域方言の影響を軽減できるように設計されている。
QVoiceは、学習者が意味を理解し、既存の英語の知識とつながりを描き、発音補正のための詳細なフィードバックと、文脈的な単語使用例を提供するために様々な学習方法を採用している。
QVoiceで特徴付けられる学習の手がかりは、フレーズや単語の可視化や翻訳、音素の書き起こしや翻訳など、幅広い意味のある情報を含んでいる。
QVoiceは文字レベルで発音フィードバックを提供し、単語レベルでのパフォーマンスを評価する。
関連論文リスト
- Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。
我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。
方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-07-03T11:30:03Z) - A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain [0.0]
この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。
我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-03-07T07:24:32Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - MyVoice: Arabic Speech Resource Collaboration Platform [8.098700090427721]
MyVoiceはアラビア語の音声を集めるためのクラウドソーシングプラットフォームだ。
MyVoiceは、コントリビュータが都市レベルの微粒な方言を選択することを可能にする。
ユーザーはコントリビュータとアノテータの間で役割を切り替えることができる。
論文 参考訳(メタデータ) (2023-07-23T07:13:30Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - DDSupport: Language Learning Support System that Displays Differences
and Distances from Model Speech [16.82591185507251]
音声のスコアを計算し,初心者による誤認識を検出する新しい言語学習支援システムを提案する。
提案システムは,深層学習に基づく音声処理を用いて,学習者の音声の発音スコアと,学習者とモデルの発音群との差/距離を表示する。
論文 参考訳(メタデータ) (2022-12-08T05:49:15Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。