Fugu-MT 論文翻訳(概要): MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical Neural Modeling

論文の概要: MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical Neural Modeling

arxiv url: http://arxiv.org/abs/2510.04956v2
Date: Tue, 07 Oct 2025 14:43:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-08 13:19:51.500031
Title: MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical Neural Modeling
Title（参考訳）: MuFFIN:対話型階層型ニューラルネットワークを用いた多面的発音フィードバックモデル
Authors: Bi-Cheng Yan, Ming-Kang Tsai, Berlin Chen,
Abstract要約: 対話型階層型ニューラルアーキテクチャを用いた多面発音フィードバックモデルであるMuFFINを紹介する。特徴空間における音素間のニュアンスな区別をよりよく捉えるために、新しい音素コントラストの順序規則化機構が提案される。本研究では,音素固有の変化を伴う音素の出力を摂動させるための,シンプルで効果的な学習目標を設計する。
参考スコア（独自算出の注目度）: 14.953695326450001
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computer-assisted pronunciation training (CAPT) manages to facilitate second-language (L2) learners to practice pronunciation skills by offering timely and instructive feedback. To examine pronunciation proficiency from multiple facets, existing methods for CAPT broadly fall into two categories: mispronunciation detection and diagnosis (MDD) as well as automatic pronunciation assessment (APA). The former aims to pinpoint phonetic pronunciation errors and provide diagnostic feedback, while the latter seeks instead to quantify pronunciation proficiency pertaining to various aspects. Despite the natural complementarity between MDD and APA, researchers and practitioners, however, often treat them as independent tasks with disparate modeling paradigms. In light of this, we in this paper first introduce MuFFIN, a Multi-Faceted pronunciation Feedback model with an Interactive hierarchical Neural architecture, to jointly address the tasks of MDD and APA. To better capture the nuanced distinctions between phonemes in the feature space, a novel phoneme-contrastive ordinal regularization mechanism is then put forward to optimize the proposed model to generate more phoneme-discriminative features while factoring in the ordinality of the aspect scores. In addition, to address the intricate data imbalance problem in MDD, we design a simple yet effective training objective, which is specifically tailored to perturb the outputs of a phoneme classifier with the phoneme-specific variations, so as to better render the distribution of predicted phonemes meanwhile considering their mispronunciation characteristics. A series of experiments conducted on the Speechocean762 benchmark dataset demonstrates the efficacy of our method in relation to several cutting-edge baselines, showing state-of-the-art performance on both the APA and MDD tasks.
Abstract（参考訳）: コンピュータ支援発音訓練(CAPT)は、第二言語(L2)学習者がタイムリーでインストラクティブなフィードバックを提供することで、発音スキルの実践を促進する。複数の面からの発音精度を調べるために,既存のCAPT法は,誤発音検出・診断(MDD)と自動発音評価(APA)の2つのカテゴリに大別されている。前者は発音誤りを指摘し、診断フィードバックを提供することを目標とし、後者は様々な側面の発音能力の定量化を目指す。 MDDとAPAの自然な相補性にもかかわらず、研究者や実践者は、しばしば異なるモデリングパラダイムでそれらを独立したタスクとして扱う。そこで本稿では,MDD と APA のタスクを協調的に処理するために,対話型階層型ニューラルアーキテクチャを用いた多面的発音フィードバックモデル MuFFIN について紹介する。特徴空間における音素間のニュアンスな区別をよりよく捉えるため,新しい音素コントラスト法則化機構が提案される。また、MDDにおける複雑なデータ不均衡問題に対処するため、音素分類器の出力を音素固有の変種に摂動させることを目的とし、その誤発音特性を考慮しつつ予測音素の分布をより良く表現するために、簡易で効果的な訓練目標を設計する。 Speechocean762ベンチマークデータセットで行った一連の実験は、いくつかの最先端ベースラインに対して、我々の手法の有効性を示し、APAタスクとMDDタスクの両方で最先端のパフォーマンスを示す。

関連論文リスト

Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文参考訳（メタデータ） (2026-01-27T00:55:14Z)
Multi-granularity Interactive Attention Framework for Residual Hierarchical Pronunciation Assessment [18.97451964522765]
本稿では,粒度をまたいだ双方向モデリングが可能な,新しい階層型対話手法HIAを提案する。また,音響階層をモデル化する際の特徴忘れ問題を軽減するために,残像階層構造を提案する。私たちのモデルは、既存の最先端の手法より総合的に先行しています。
論文参考訳（メタデータ） (2026-01-05T02:43:04Z)
Multi-task Pretraining for Enhancing Interpretable L2 Pronunciation Assessment [21.12585023191302]
自動発音評価(APA)は,第2言語(L2)学習者の音声をきめ細かい発音フィードバックによって分析する。 APAに対する既存の取り組みの多くは、通常、入力としてセグメントレベルの特徴を採用し、異なる粒度の発音スコアを予測する。 APAのためのMTP(Multi-task Pretraining)を導入する。
論文参考訳（メタデータ） (2025-09-21T02:04:52Z)
JCAPT: A Joint Modeling Approach for CAPT [4.1088673993841685]
本研究は、音韻的属性、SSMに基づくモデリング、CAPTにおけるプロンプトを組み合わせた最初のものである。 speechocean762ベンチマークで行った一連の実験は、我々のモデルが従来手法より一貫して優れていることを示した。
論文参考訳（メタデータ） (2025-06-24T05:12:32Z)
Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss [5.101375571703936]
HMambaは、APAとMDDタスクをシームレスに並列に統合する新しいCAPTアプローチである。 speechocean762ベンチマークデータセットの総合的な実験結果の集合は、我々のAPAに対するアプローチの有効性を示す。提案手法は,F1スコア63.85%を達成し,強力なベースラインよりもMDD性能を著しく向上させる。
論文参考訳（メタデータ） (2025-02-11T14:17:29Z)
Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment [10.844822448167937]
回帰に基づくAPAモデルの学習のための音素コントラストオーディショナル(PCO)損失を提案する。具体的には、MSE損失に音素識別正則化器を導入し、異なる音素カテゴリの特徴表現を遠方へ誘導する。 speechocean762ベンチマークデータセットで行った広範な実験結果から,本モデルの有効性と有効性が示唆された。
論文参考訳（メタデータ） (2023-10-03T07:05:37Z)
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。実験の結果,提案手法はベースライン法よりも優れていた。
論文参考訳（メタデータ） (2023-07-28T11:20:23Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。