Fugu-MT 論文翻訳(概要): Compositional Phoneme Approximation for L1-Grounded L2 Pronunciation Training

論文の概要: Compositional Phoneme Approximation for L1-Grounded L2 Pronunciation Training

arxiv url: http://arxiv.org/abs/2411.10927v4
Date: Tue, 23 Sep 2025 07:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-24 16:16:25.500496
Title: Compositional Phoneme Approximation for L1-Grounded L2 Pronunciation Training
Title（参考訳）: L1-Grounded L2 Pronunciation Trainingのための合成音素近似
Authors: Jisang Park, Minu Kim, DaYoung Hong, Jongha Lee,
Abstract要約: 合成音素近似に基づくL1-grounded pronunciation training法を提案する。韓国の20人の非ネイティブ英語話者による評価は、CPAベースのトレーニングが音響解析において76%の箱内フォルマントレートを達成することを示している。
参考スコア（独自算出の注目度）: 3.60894968737225
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Learners of a second language (L2) often map non-native phonemes with similar native-language (L1) phonemes, making conventional L2-focused training slow and effortful. To address this, we propose an L1-grounded pronunciation training method based on compositional phoneme approximation (CPA), a feature-based representation technique that approximates L2 sounds with sequences of L1 phonemes. Evaluations with 20 Korean non-native English speakers show that CPA-based training achieves a 76% in-box formant rate in acoustic analysis, over 20% relative improvement in phoneme recognition accuracy, and over 80% of speech being rated as more native-like, with minimal training.
Abstract（参考訳）: 第二言語(L2)の学習者は、しばしば類似のネイティブ言語(L1)音素で非ネイティブ音素をマッピングする。そこで本研究では,L1音素列とL2音素列を近似した特徴に基づく表現手法である,合成音素近似(CPA)に基づくL1音素発音訓練手法を提案する。韓国の20人の非ネイティブ英語話者による評価では、CPAベースのトレーニングは、音響分析において76%のインボックスフォルマント率、音素認識精度の20%以上の相対的改善、および80%以上のスピーチが、最小限のトレーニングで、よりネイティブなものとして評価されている。

関連論文リスト

FROST-EMA: Finnish and Russian Oral Speech Dataset of Electromagnetic Articulography Measurements with L1, L2 and Imitated L2 Accents [44.93009303381237]
FROST-EMA (Finnish and Russian Oral Speech dataset of Electromagnetic Articulography) コーパスを導入する。 18人のバイリンガル話者からなり、母国語(L1)、第二言語(L2)、模倣されたL2(偽外国語のアクセント)を生産した。この新しいコーパスは、音声学的および技術的観点からの言語多様性の研究を可能にする。
論文参考訳（メタデータ） (2025-06-10T16:52:11Z)
LLM-based phoneme-to-grapheme for phoneme-based speech recognition [11.552927239284582]
音素自動音声認識(ASR)のための音素間符号化(LLM-P2G)を提案する。実験の結果, LLM-P2G はポーランド語とドイツ語の交叉型 ASR において, WER の相対減少率 3.6% と 6.9% でWFST 系よりも優れていた。
論文参考訳（メタデータ） (2025-06-05T07:35:55Z)
Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳（メタデータ） (2025-05-26T07:21:20Z)
A Pilot Study of Applying Sequence-to-Sequence Voice Conversion to Evaluate the Intelligibility of L2 Speech Using a Native Speaker's Shadowings [12.29892010056753]
L2話者の理想的なフィードバック形式は、非常にきめ細かな粒度であり、発話の理解不能な部分を検出して診断することができる。このパイロットスタディでは、非ネイティブ話者(L2)の読み上げ、母語話者(L1)のシャドーイング、スクリプトシェーディング発話からなるユニークな半並列データセットを利用する。音声変換技術を用いてL1話者の隠れL2音声の処理を再現し、仮想シャドーアシステムを構築する技術的可能性について検討する。
論文参考訳（メタデータ） (2024-10-03T06:24:56Z)
PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。 LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文参考訳（メタデータ） (2024-04-03T04:53:14Z)
L1-aware Multilingual Mispronunciation Detection Framework [10.15106073866792]
本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。実験では、L1-MultiMDDフレームワークが、L2-ARTIC、LATIC、AraVoiceL2v2と、EpaDBとSpeechocean762データセットの両方で有効であることを示した。
論文参考訳（メタデータ） (2023-09-14T13:53:17Z)
BiPhone: Modeling Inter Language Phonetic Influences in Text [12.405907573933378]
テクノロジーの非対称性のため、リテラシーの低い言語でWebを使わざるを得ない人は多い。そのようなユーザから第2言語(L2)で書かれたテキストには、ネイティブ言語(L1)の影響を受けている大量のエラーが含まれていることが多い。本稿ではL1とL2のペアに対して音素の混同(L2ではL1話者が強調される可能性が高い)を抽出する手法を提案する。これらの混乱を生成モデル (Bi-Phone) にプラグインし、合成により劣化したL2テキストを生成する。
論文参考訳（メタデータ） (2023-07-06T22:31:55Z)
Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文参考訳（メタデータ） (2023-06-05T01:55:33Z)
On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文参考訳（メタデータ） (2021-07-20T13:30:23Z)
Weakly-supervised word-level pronunciation error detection in non-native English speech [14.430965595136149]
非ネイティブ(L2)英語音声における単語レベルの誤発音検出のための弱教師付きモデル音素的に書き起こされたL2音声は不要であり、誤発音した単語のみをマークする必要がある。本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。
論文参考訳（メタデータ） (2021-06-07T10:31:53Z)
Acoustics Based Intent Recognition Using Discovered Phonetic Units for Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文参考訳（メタデータ） (2020-11-07T00:35:31Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)
AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文参考訳（メタデータ） (2020-04-17T02:02:18Z)
Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。 11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文参考訳（メタデータ） (2020-02-26T21:28:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。