Fugu-MT 論文翻訳(概要): Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation

論文の概要: Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation

arxiv url: http://arxiv.org/abs/2411.10927v2
Date: Wed, 27 Nov 2024 12:16:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.189882
Title: Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation
Title（参考訳）: 言語間音声合成(IPC) : 第二言語発音の理論的および計算的アプローチ
Authors: Jisang Park, Minu Kim, DaYoung Hong, Jongha Lee,
Abstract要約: 第二言語(L2)の学習者は、しばしば意識不明なL2音素を母語(L1)から類似の音素で置き換えるこの音素置換は、L2の標準的な音韻学的パターンから逸脱する。誤り音素移動を最小限に抑える新しい計算法として,言語間音声合成法(IPC)を提案する。
参考スコア（独自算出の注目度）: 1.3024517678456733
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Learners of a second language (L2) often unconsciously substitute unfamiliar L2 phonemes with similar phonemes from their native language (L1), even though native speakers of the L2 perceive these sounds as distinct and non-interchangeable. This phonemic substitution leads to deviations from the standard phonological patterns of the L2, creating challenges for learners in acquiring accurate L2 pronunciation. To address this, we propose Inter-linguistic Phonetic Composition (IPC), a novel computational method designed to minimize incorrect phonological transfer by reconstructing L2 phonemes as composite sounds derived from multiple L1 phonemes. Tests with two automatic speech recognition models demonstrated that when L2 speakers produced IPC-generated composite sounds, the recognition rate of target L2 phonemes improved by 20% compared to when their pronunciation was influenced by original phonological transfer patterns. The improvement was observed within a relatively shorter time frame, demonstrating rapid acquisition of the composite sound.
Abstract（参考訳）: 第二言語 (L2) の学習者は、L2 の母語話者がこれらの音を区別され、交換不能であると認識しているにもかかわらず、意識不明な L2 音素をその母語 (L1) から類似の音素で置き換えることがしばしばある。この音素置換は、L2の標準音韻パターンから逸脱し、学習者が正確なL2発音を取得する上での課題を生み出す。そこで本研究では,L2音素を複数のL1音素から合成した合成音として再構成することにより,誤り音素移動を最小限に抑える新しい計算手法であるIPCを提案する。 2つの自動音声認識モデルを用いた実験では、L2話者がIPC合成合成音を発生すると、その発音が元の音韻伝達パターンに影響された場合と比較して、目標L2音素の認識率が20%向上した。この改善は比較的短い時間枠で観測され、合成音の急速な獲得が示された。

関連論文リスト

FROST-EMA: Finnish and Russian Oral Speech Dataset of Electromagnetic Articulography Measurements with L1, L2 and Imitated L2 Accents [44.93009303381237]
FROST-EMA (Finnish and Russian Oral Speech dataset of Electromagnetic Articulography) コーパスを導入する。 18人のバイリンガル話者からなり、母国語(L1)、第二言語(L2)、模倣されたL2(偽外国語のアクセント)を生産した。この新しいコーパスは、音声学的および技術的観点からの言語多様性の研究を可能にする。
論文参考訳（メタデータ） (2025-06-10T16:52:11Z)
LLM-based phoneme-to-grapheme for phoneme-based speech recognition [11.552927239284582]
音素自動音声認識(ASR)のための音素間符号化(LLM-P2G)を提案する。実験の結果, LLM-P2G はポーランド語とドイツ語の交叉型 ASR において, WER の相対減少率 3.6% と 6.9% でWFST 系よりも優れていた。
論文参考訳（メタデータ） (2025-06-05T07:35:55Z)
Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳（メタデータ） (2025-05-26T07:21:20Z)
A Pilot Study of Applying Sequence-to-Sequence Voice Conversion to Evaluate the Intelligibility of L2 Speech Using a Native Speaker's Shadowings [12.29892010056753]
L2話者の理想的なフィードバック形式は、非常にきめ細かな粒度であり、発話の理解不能な部分を検出して診断することができる。このパイロットスタディでは、非ネイティブ話者(L2)の読み上げ、母語話者(L1)のシャドーイング、スクリプトシェーディング発話からなるユニークな半並列データセットを利用する。音声変換技術を用いてL1話者の隠れL2音声の処理を再現し、仮想シャドーアシステムを構築する技術的可能性について検討する。
論文参考訳（メタデータ） (2024-10-03T06:24:56Z)
PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。 LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文参考訳（メタデータ） (2024-04-03T04:53:14Z)
L1-aware Multilingual Mispronunciation Detection Framework [10.15106073866792]
本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。実験では、L1-MultiMDDフレームワークが、L2-ARTIC、LATIC、AraVoiceL2v2と、EpaDBとSpeechocean762データセットの両方で有効であることを示した。
論文参考訳（メタデータ） (2023-09-14T13:53:17Z)
BiPhone: Modeling Inter Language Phonetic Influences in Text [12.405907573933378]
テクノロジーの非対称性のため、リテラシーの低い言語でWebを使わざるを得ない人は多い。そのようなユーザから第2言語(L2)で書かれたテキストには、ネイティブ言語(L1)の影響を受けている大量のエラーが含まれていることが多い。本稿ではL1とL2のペアに対して音素の混同(L2ではL1話者が強調される可能性が高い)を抽出する手法を提案する。これらの混乱を生成モデル (Bi-Phone) にプラグインし、合成により劣化したL2テキストを生成する。
論文参考訳（メタデータ） (2023-07-06T22:31:55Z)
Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文参考訳（メタデータ） (2023-06-05T01:55:33Z)
On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文参考訳（メタデータ） (2021-07-20T13:30:23Z)
Weakly-supervised word-level pronunciation error detection in non-native English speech [14.430965595136149]
非ネイティブ(L2)英語音声における単語レベルの誤発音検出のための弱教師付きモデル音素的に書き起こされたL2音声は不要であり、誤発音した単語のみをマークする必要がある。本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。
論文参考訳（メタデータ） (2021-06-07T10:31:53Z)
Acoustics Based Intent Recognition Using Discovered Phonetic Units for Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文参考訳（メタデータ） (2020-11-07T00:35:31Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)
AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文参考訳（メタデータ） (2020-04-17T02:02:18Z)
Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。 11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文参考訳（メタデータ） (2020-02-26T21:28:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。