論文の概要: Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs
- arxiv url: http://arxiv.org/abs/2606.05569v1
- Date: Thu, 04 Jun 2026 01:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.475243
- Title: Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs
- Title(参考訳): 言語特化統計グラフを用いたドメイン認識誤認識の検出と診断
- Authors: Huu Tuong Tu, Hanh Nguyen, Thien Van Luong, Nguyen Tien Cuong, Vu Huan, Nguyen Thi Thu Trang,
- Abstract要約: 本稿では,有向グラフとして表される音素混在パターンをモデルで学習することのできる統計グラフ構築手法を提案する。
様々な母国語(L1)の背景における発音の体系的差異を捉えるための言語固有の戦略を導入する。
提案手法の有効性はL2-ARCTICベンチマークで広範な実験を行い,59.52%のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 4.91139242549605
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mispronunciation Detection and Diagnosis (MDD) has gained increasing importance in computer-assisted language learning and speech technology in recent years. In this paper, we propose a method for constructing statistical graphs that enable models to learn phoneme confusion patterns represented as directed graphs. Furthermore, we introduce a language-specific strategy to capture systematic pronunciation differences across various native language (L1) backgrounds. The effectiveness of our approach is demonstrated through extensive experiments on the L2-ARCTIC benchmark, where it achieves an F1-score of 59.52%, outperforming several competitive baselines.
- Abstract(参考訳): 近年,コンピュータ支援言語学習と音声技術において,誤認識検出・診断(MDD)の重要性が高まっている。
本稿では,有向グラフとして表される音素混在パターンをモデルで学習することのできる統計グラフ構築手法を提案する。
さらに、様々な母国語(L1)の背景における体系的な発音差を捉えるための言語固有の戦略を導入する。
提案手法の有効性はL2-ARCTICベンチマークで広範な実験を行い,F1スコア59.52%を達成し,いくつかの競争基準を上回る結果を得た。
関連論文リスト
- ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction [88.41471266579333]
本稿では,大規模言語モデル(LLM)からの言語知識をAV-TSEモデルに組み込む新しいフレームワークであるELEGANCEを提案する。
2つのAV-TSEバックボーン上でのRoBERTa、Qwen3-0.6B、Qwen3-4Bによる総合的な実験は大幅に改善された。
論文 参考訳(メタデータ) (2025-11-09T08:50:11Z) - PAC: Pronunciation-Aware Contextualized Large Language Model-based Automatic Speech Recognition [20.121140251177145]
本稿では,Large Language Model(LLM)に基づく自動音声認識(ASR)システムにおける2つの課題について述べる。
The public English Librispeech and Mandarin AISHELL-1 datas showed that PAC: (1) reduces relative Word Error Rate (WER) by 30.2% and 53.8% compared to pre-trained ASR model, (2) achieves 31.8% and 60.5% relative reductions of biased WER for long-tail words。
論文 参考訳(メタデータ) (2025-09-16T04:07:28Z) - Pronunciation-Lexicon Free Training for Phoneme-based Crosslingual ASR via Joint Stochastic Approximation [12.39451124683428]
本稿では,音素を離散潜在変数として扱う潜在変数モデルに基づく手法を提案する。
多言語事前学習S2Pモデルに基づいて,ポーランド語とインドネシア語でクロスリンガル実験を行った。
10分間しか音素の監督を行ない、新しい手法であるJSA-SPGは5%の誤り率の低減を実現した。
論文 参考訳(メタデータ) (2025-07-04T12:23:22Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Semi-supervised cross-lingual speech emotion recognition [26.544999411050036]
言語間音声感情認識は、現実世界のアプリケーションでは依然として課題である。
対象領域にラベル付き例がほとんど存在しない場合に,言語間感情認識のための半教師付き学習(SSL)手法を提案する。
提案手法はトランスフォーマーをベースとして,ラベルなし発話の擬似ラベル付け戦略を活用することで,新しいドメインに適応する。
論文 参考訳(メタデータ) (2022-07-14T09:24:55Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。