論文の概要: Comparison of L2 Korean pronunciation error patterns from five L1
backgrounds by using automatic phonetic transcription
- arxiv url: http://arxiv.org/abs/2306.10821v1
- Date: Mon, 19 Jun 2023 10:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 18:17:34.314753
- Title: Comparison of L2 Korean pronunciation error patterns from five L1
backgrounds by using automatic phonetic transcription
- Title(参考訳): 音素自動転写による5つのL1背景からの韓国語発音誤りパターンの比較
- Authors: Eun Jung Yeo, Hyungshin Ryu, Jooyoung Lee, Sunhee Kim, Minhwa Chung
- Abstract要約: 本稿では,5つの異なる言語背景からL2韓国語の発音誤りパターンを大規模に解析する。
各L1に対して、標準電話シーケンスと自動転写された電話シーケンスを整列させて、融合行列を生成する。
1)ベトナム語で/n/,(2)日本語で/textturnm/を挿入する音節-final/l/の置換を含む3つのパターンが言語に依存している。
- 参考スコア(独自算出の注目度): 5.88544871781217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a large-scale analysis of L2 Korean pronunciation error
patterns from five different language backgrounds, Chinese, Vietnamese,
Japanese, Thai, and English, by using automatic phonetic transcription. For the
analysis, confusion matrices are generated for each L1, by aligning canonical
phone sequences and automatically transcribed phone sequences obtained from
fine-tuned Wav2Vec2 XLS-R phone recognizer. Each value in the confusion
matrices is compared to capture frequent common error patterns and to specify
patterns unique to a certain language background. Using the Foreign Speakers'
Voice Data of Korean for Artificial Intelligence Learning dataset, common error
pattern types are found to be (1) substitutions of aspirated or tense
consonants with plain consonants, (2) deletions of syllable-final consonants,
and (3) substitutions of diphthongs with monophthongs. On the other hand,
thirty-nine patterns including (1) syllable-final /l/ substitutions with /n/
for Vietnamese and (2) /\textturnm/ insertions for Japanese are discovered as
language-dependent.
- Abstract(参考訳): 本稿では,中国語,ベトナム語,日本語,タイ語,英語の5言語背景のl2韓国語の発音誤りパターンを,自動音声認識を用いて大規模に分析する。
解析のために、各L1に対して、標準電話シーケンスと微調整されたWav2Vec2 XLS-R電話認識器から得られる自動転写電話シーケンスを整列させて、混乱行列を生成する。
混乱行列の各値を比較して、頻繁な共通エラーパターンをキャプチャし、特定の言語背景特有のパターンを指定する。
韓国語の外国語話者音声データを用いた人工知能学習データセットでは,(1)発声子音の置換,(2)音節末子音の削除,(3)単音節の置換,が一般的な誤りパターンであることがわかった。
一方,(1)ベトナム語では/n/,(2)日本語では/\textturnm/,/n/で音節末/l/の置換を含む39パターンが言語依存型として見出された。
関連論文リスト
- Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation [1.3024517678456733]
第二言語(L2)の学習者は、しばしば意識不明なL2音素を母語(L1)から類似の音素で置き換える
この音素置換は、L2の標準的な音韻学的パターンから逸脱する。
誤り音素移動を最小限に抑える新しい計算法として,言語間音声合成法(IPC)を提案する。
論文 参考訳(メタデータ) (2024-11-17T01:15:58Z) - L1-aware Multilingual Mispronunciation Detection Framework [10.15106073866792]
本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。
入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。
実験では、L1-MultiMDDフレームワークが、L2-ARTIC、LATIC、AraVoiceL2v2と、EpaDBとSpeechocean762データセットの両方で有効であることを示した。
論文 参考訳(メタデータ) (2023-09-14T13:53:17Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Using heterogeneity in semi-supervised transcription hypotheses to
improve code-switched speech recognition [6.224255518500385]
モノリンガルデータは、コードスウィッチペア内の1つの言語とより密に一致している可能性があることを示す。
コードスイッチングASRのための半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-14T18:39:18Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z) - Synchronous Bidirectional Learning for Multilingual Lip Reading [99.14744013265594]
すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。
音素はアルファベットよりも唇の動きと密接に関連している。
新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
論文 参考訳(メタデータ) (2020-05-08T04:19:57Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。