論文の概要: L1-aware Multilingual Mispronunciation Detection Framework
- arxiv url: http://arxiv.org/abs/2309.07719v2
- Date: Thu, 21 Sep 2023 15:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:21:37.695304
- Title: L1-aware Multilingual Mispronunciation Detection Framework
- Title(参考訳): L1-Aware Multilingual Mispronunciation Detection Framework
- Authors: Yassine El Kheir, Shammur Absar Chowdhury, Ahmed Ali
- Abstract要約: 本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。
入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。
実験では、L1-MultiMDDフレームワークが、L2-ARTIC、LATIC、AraVoiceL2v2と、EpaDBとSpeechocean762データセットの両方で有効であることを示した。
- 参考スコア(独自算出の注目度): 10.15106073866792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The phonological discrepancies between a speaker's native (L1) and the
non-native language (L2) serves as a major factor for mispronunciation. This
paper introduces a novel multilingual MDD architecture, L1-MultiMDD, enriched
with L1-aware speech representation. An end-to-end speech encoder is trained on
the input signal and its corresponding reference phoneme sequence. First, an
attention mechanism is deployed to align the input audio with the reference
phoneme sequence. Afterwards, the L1-L2-speech embedding are extracted from an
auxiliary model, pretrained in a multi-task setup identifying L1 and L2
language, and are infused with the primary network. Finally, the L1-MultiMDD is
then optimized for a unified multilingual phoneme recognition task using
connectionist temporal classification (CTC) loss for the target languages:
English, Arabic, and Mandarin. Our experiments demonstrate the effectiveness of
the proposed L1-MultiMDD framework on both seen -- L2-ARTIC, LATIC, and
AraVoiceL2v2; and unseen -- EpaDB and Speechocean762 datasets. The consistent
gains in PER, and false rejection rate (FRR) across all target languages
confirm our approach's robustness, efficacy, and generalizability.
- Abstract(参考訳): 話者の母語(L1)と非母語(L2)との音韻的相違は、誤発音の主要な要因である。
本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。
入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。
まず、入力された音声を基準音素シーケンスに整列させるアテンション機構を配置する。
その後、補助モデルからL1-L2音声埋め込みを抽出し、L1言語とL2言語を識別するマルチタスク設定で事前訓練し、一次ネットワークに注入する。
最後に、L1-MultiMDDは、ターゲット言語である英語、アラビア語、マンダリンに対する接続性時間分類(CTC)の損失を利用して、統一された多言語音素認識タスクに最適化される。
L2-ARTIC, LATIC, AraVoiceL2v2, and unseen -- EpaDB, Speechocean762データセットに対するL1-MultiMDDフレームワークの有効性を示す。
すべてのターゲット言語におけるperとfalse reject rate(frr)の一貫した向上は、我々のアプローチの堅牢性、有効性、一般化性を確認します。
関連論文リスト
- Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision [16.992058149317753]
本稿では,データ効率のよい自動音声認識(MCLASR)に対する音声指導の弱い事前学習のアプローチについて検討する。
我々は,LanguageNet grapheme-to-phoneme(G2P)モデルを活用して,ゴールドスタンダードな人間検証音声書き起こしの要求を緩和し,国際音声アルファベット(IPA)に基づく書き起こしを得る。
MCL-ASRにおける音素モデルの有効性を示す実験では, 未知言語に対する音声認識, 数ショットのデータ量の違いによる言語間のクロスリンガル性能, 破滅的な忘れ込み, 訓練効率を克服した。
論文 参考訳(メタデータ) (2024-06-04T09:56:05Z) - BiPhone: Modeling Inter Language Phonetic Influences in Text [12.405907573933378]
テクノロジーの非対称性のため、リテラシーの低い言語でWebを使わざるを得ない人は多い。
そのようなユーザから第2言語(L2)で書かれたテキストには、ネイティブ言語(L1)の影響を受けている大量のエラーが含まれていることが多い。
本稿ではL1とL2のペアに対して音素の混同(L2ではL1話者が強調される可能性が高い)を抽出する手法を提案する。
これらの混乱を生成モデル (Bi-Phone) にプラグインし、合成により劣化したL2テキストを生成する。
論文 参考訳(メタデータ) (2023-07-06T22:31:55Z) - Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Unsupervised Acoustic Unit Discovery by Leveraging a
Language-Independent Subword Discriminative Feature Representation [31.87235700253597]
本論文では,非ラベル音声データから電話型音響ユニット(AUD)を自動的に発見する。
第1段階は単語識別的特徴表現を学習し,第2段階は学習表現にクラスタリングを適用し,検出された音響単位として電話型クラスタを得る,という2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-02T11:43:07Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。