論文の概要: Compositional Phoneme Approximation for L1-Grounded L2 Pronunciation Training
- arxiv url: http://arxiv.org/abs/2411.10927v4
- Date: Tue, 23 Sep 2025 07:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 16:16:25.500496
- Title: Compositional Phoneme Approximation for L1-Grounded L2 Pronunciation Training
- Title(参考訳): L1-Grounded L2 Pronunciation Trainingのための合成音素近似
- Authors: Jisang Park, Minu Kim, DaYoung Hong, Jongha Lee,
- Abstract要約: 合成音素近似に基づくL1-grounded pronunciation training法を提案する。
韓国の20人の非ネイティブ英語話者による評価は、CPAベースのトレーニングが音響解析において76%の箱内フォルマントレートを達成することを示している。
- 参考スコア(独自算出の注目度): 3.60894968737225
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learners of a second language (L2) often map non-native phonemes with similar native-language (L1) phonemes, making conventional L2-focused training slow and effortful. To address this, we propose an L1-grounded pronunciation training method based on compositional phoneme approximation (CPA), a feature-based representation technique that approximates L2 sounds with sequences of L1 phonemes. Evaluations with 20 Korean non-native English speakers show that CPA-based training achieves a 76% in-box formant rate in acoustic analysis, over 20% relative improvement in phoneme recognition accuracy, and over 80% of speech being rated as more native-like, with minimal training.
- Abstract(参考訳): 第二言語(L2)の学習者は、しばしば類似のネイティブ言語(L1)音素で非ネイティブ音素をマッピングする。
そこで本研究では,L1音素列とL2音素列を近似した特徴に基づく表現手法である,合成音素近似(CPA)に基づくL1音素発音訓練手法を提案する。
韓国の20人の非ネイティブ英語話者による評価では、CPAベースのトレーニングは、音響分析において76%のインボックスフォルマント率、音素認識精度の20%以上の相対的改善、および80%以上のスピーチが、最小限のトレーニングで、よりネイティブなものとして評価されている。
関連論文リスト
- PhoniTale: Phonologically Grounded Mnemonic Generation for Typologically Distant Language Pairs [51.745816131869674]
大規模言語モデル (LLM) は、学習者の第一言語 (L1) から類似したキーワードを活用して、L2語彙の獲得を支援することで、キーワード・メニーモニックを生成するために使われている。
本稿では,IPAに基づく音韻的適応と音節認識アライメントを実行し,L1キーワードシーケンスを検索する新しい言語間メタモニック生成システムであるPhoniTaleを提案する。
以上の結果から,PhoniTaleは従来の自動手法を一貫して上回り,人手によるメニーモニックに匹敵する品質を実現していることがわかった。
論文 参考訳(メタデータ) (2025-07-07T19:50:12Z) - FROST-EMA: Finnish and Russian Oral Speech Dataset of Electromagnetic Articulography Measurements with L1, L2 and Imitated L2 Accents [44.93009303381237]
FROST-EMA (Finnish and Russian Oral Speech dataset of Electromagnetic Articulography) コーパスを導入する。
18人のバイリンガル話者からなり、母国語(L1)、第二言語(L2)、模倣されたL2(偽外国語のアクセント)を生産した。
この新しいコーパスは、音声学的および技術的観点からの言語多様性の研究を可能にする。
論文 参考訳(メタデータ) (2025-06-10T16:52:11Z) - LLM-based phoneme-to-grapheme for phoneme-based speech recognition [11.552927239284582]
音素自動音声認識(ASR)のための音素間符号化(LLM-P2G)を提案する。
実験の結果, LLM-P2G はポーランド語とドイツ語の交叉型 ASR において, WER の相対減少率 3.6% と 6.9% でWFST 系よりも優れていた。
論文 参考訳(メタデータ) (2025-06-05T07:35:55Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - A Pilot Study of Applying Sequence-to-Sequence Voice Conversion to Evaluate the Intelligibility of L2 Speech Using a Native Speaker's Shadowings [12.29892010056753]
L2話者の理想的なフィードバック形式は、非常にきめ細かな粒度であり、発話の理解不能な部分を検出して診断することができる。
このパイロットスタディでは、非ネイティブ話者(L2)の読み上げ、母語話者(L1)のシャドーイング、スクリプトシェーディング発話からなるユニークな半並列データセットを利用する。
音声変換技術を用いてL1話者の隠れL2音声の処理を再現し、仮想シャドーアシステムを構築する技術的可能性について検討する。
論文 参考訳(メタデータ) (2024-10-03T06:24:56Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文 参考訳(メタデータ) (2023-12-06T06:37:24Z) - L1-aware Multilingual Mispronunciation Detection Framework [10.15106073866792]
本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。
入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。
実験では、L1-MultiMDDフレームワークが、L2-ARTIC、LATIC、AraVoiceL2v2と、EpaDBとSpeechocean762データセットの両方で有効であることを示した。
論文 参考訳(メタデータ) (2023-09-14T13:53:17Z) - BiPhone: Modeling Inter Language Phonetic Influences in Text [12.405907573933378]
テクノロジーの非対称性のため、リテラシーの低い言語でWebを使わざるを得ない人は多い。
そのようなユーザから第2言語(L2)で書かれたテキストには、ネイティブ言語(L1)の影響を受けている大量のエラーが含まれていることが多い。
本稿ではL1とL2のペアに対して音素の混同(L2ではL1話者が強調される可能性が高い)を抽出する手法を提案する。
これらの混乱を生成モデル (Bi-Phone) にプラグインし、合成により劣化したL2テキストを生成する。
論文 参考訳(メタデータ) (2023-07-06T22:31:55Z) - Allophant: Cross-lingual Phoneme Recognition with Articulatory
Attributes [0.0]
アロファントは多言語音素認識器である。
ターゲット言語への言語間移動には音素の在庫しか必要としない。
AllophoibleはPHOIBLEデータベースの拡張である。
論文 参考訳(メタデータ) (2023-06-07T10:11:09Z) - Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Weakly-supervised word-level pronunciation error detection in non-native
English speech [14.430965595136149]
非ネイティブ(L2)英語音声における単語レベルの誤発音検出のための弱教師付きモデル
音素的に書き起こされたL2音声は不要であり、誤発音した単語のみをマークする必要がある。
本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。
論文 参考訳(メタデータ) (2021-06-07T10:31:53Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Synchronous Bidirectional Learning for Multilingual Lip Reading [99.14744013265594]
すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。
音素はアルファベットよりも唇の動きと密接に関連している。
新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
論文 参考訳(メタデータ) (2020-05-08T04:19:57Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。