論文の概要: MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical Neural Modeling
- arxiv url: http://arxiv.org/abs/2510.04956v2
- Date: Tue, 07 Oct 2025 14:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.500031
- Title: MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical Neural Modeling
- Title(参考訳): MuFFIN:対話型階層型ニューラルネットワークを用いた多面的発音フィードバックモデル
- Authors: Bi-Cheng Yan, Ming-Kang Tsai, Berlin Chen,
- Abstract要約: 対話型階層型ニューラルアーキテクチャを用いた多面発音フィードバックモデルであるMuFFINを紹介する。
特徴空間における音素間のニュアンスな区別をよりよく捉えるために、新しい音素コントラストの順序規則化機構が提案される。
本研究では,音素固有の変化を伴う音素の出力を摂動させるための,シンプルで効果的な学習目標を設計する。
- 参考スコア(独自算出の注目度): 14.953695326450001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-assisted pronunciation training (CAPT) manages to facilitate second-language (L2) learners to practice pronunciation skills by offering timely and instructive feedback. To examine pronunciation proficiency from multiple facets, existing methods for CAPT broadly fall into two categories: mispronunciation detection and diagnosis (MDD) as well as automatic pronunciation assessment (APA). The former aims to pinpoint phonetic pronunciation errors and provide diagnostic feedback, while the latter seeks instead to quantify pronunciation proficiency pertaining to various aspects. Despite the natural complementarity between MDD and APA, researchers and practitioners, however, often treat them as independent tasks with disparate modeling paradigms. In light of this, we in this paper first introduce MuFFIN, a Multi-Faceted pronunciation Feedback model with an Interactive hierarchical Neural architecture, to jointly address the tasks of MDD and APA. To better capture the nuanced distinctions between phonemes in the feature space, a novel phoneme-contrastive ordinal regularization mechanism is then put forward to optimize the proposed model to generate more phoneme-discriminative features while factoring in the ordinality of the aspect scores. In addition, to address the intricate data imbalance problem in MDD, we design a simple yet effective training objective, which is specifically tailored to perturb the outputs of a phoneme classifier with the phoneme-specific variations, so as to better render the distribution of predicted phonemes meanwhile considering their mispronunciation characteristics. A series of experiments conducted on the Speechocean762 benchmark dataset demonstrates the efficacy of our method in relation to several cutting-edge baselines, showing state-of-the-art performance on both the APA and MDD tasks.
- Abstract(参考訳): コンピュータ支援発音訓練(CAPT)は、第二言語(L2)学習者がタイムリーでインストラクティブなフィードバックを提供することで、発音スキルの実践を促進する。
複数の面からの発音精度を調べるために,既存のCAPT法は,誤発音検出・診断(MDD)と自動発音評価(APA)の2つのカテゴリに大別されている。
前者は発音誤りを指摘し、診断フィードバックを提供することを目標とし、後者は様々な側面の発音能力の定量化を目指す。
MDDとAPAの自然な相補性にもかかわらず、研究者や実践者は、しばしば異なるモデリングパラダイムでそれらを独立したタスクとして扱う。
そこで本稿では,MDD と APA のタスクを協調的に処理するために,対話型階層型ニューラルアーキテクチャを用いた多面的発音フィードバックモデル MuFFIN について紹介する。
特徴空間における音素間のニュアンスな区別をよりよく捉えるため,新しい音素コントラスト法則化機構が提案される。
また、MDDにおける複雑なデータ不均衡問題に対処するため、音素分類器の出力を音素固有の変種に摂動させることを目的とし、その誤発音特性を考慮しつつ予測音素の分布をより良く表現するために、簡易で効果的な訓練目標を設計する。
Speechocean762ベンチマークデータセットで行った一連の実験は、いくつかの最先端ベースラインに対して、我々の手法の有効性を示し、APAタスクとMDDタスクの両方で最先端のパフォーマンスを示す。
関連論文リスト
- Multi-task Pretraining for Enhancing Interpretable L2 Pronunciation Assessment [21.12585023191302]
自動発音評価(APA)は,第2言語(L2)学習者の音声をきめ細かい発音フィードバックによって分析する。
APAに対する既存の取り組みの多くは、通常、入力としてセグメントレベルの特徴を採用し、異なる粒度の発音スコアを予測する。
APAのためのMTP(Multi-task Pretraining)を導入する。
論文 参考訳(メタデータ) (2025-09-21T02:04:52Z) - JCAPT: A Joint Modeling Approach for CAPT [4.1088673993841685]
本研究は、音韻的属性、SSMに基づくモデリング、CAPTにおけるプロンプトを組み合わせた最初のものである。
speechocean762ベンチマークで行った一連の実験は、我々のモデルが従来手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2025-06-24T05:12:32Z) - Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss [5.101375571703936]
HMambaは、APAとMDDタスクをシームレスに並列に統合する新しいCAPTアプローチである。
speechocean762ベンチマークデータセットの総合的な実験結果の集合は、我々のAPAに対するアプローチの有効性を示す。
提案手法は,F1スコア63.85%を達成し,強力なベースラインよりもMDD性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T14:17:29Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。