論文の概要: JCAPT: A Joint Modeling Approach for CAPT
- arxiv url: http://arxiv.org/abs/2506.19315v1
- Date: Tue, 24 Jun 2025 05:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.496145
- Title: JCAPT: A Joint Modeling Approach for CAPT
- Title(参考訳): JCAPT:CAPTの合同モデリング手法
- Authors: Tzu-Hsuan Yang, Yue-Yang He, Berlin Chen,
- Abstract要約: 本研究は、音韻的属性、SSMに基づくモデリング、CAPTにおけるプロンプトを組み合わせた最初のものである。
speechocean762ベンチマークで行った一連の実験は、我々のモデルが従来手法より一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 4.1088673993841685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective pronunciation feedback is critical in second language (L2) learning, for which computer-assisted pronunciation training (CAPT) systems often encompass two key tasks: automatic pronunciation assessment (APA) and mispronunciation detection and diagnosis (MDD). Recent work has shown that joint modeling of these two tasks can yield mutual benefits. Our unified framework leverages Mamba, a selective state space model (SSM), while integrating phonological features and think token strategies to jointly enhance interpretability and fine-grained temporal reasoning in APA and MDD. To our knowledge, this is the first study to combine phonological attribution, SSM-based modeling, and prompting in CAPT. A series of experiments conducted on the speechocean762 benchmark demonstrate that our model consistently outperforms prior methods, particularly on the MDD task.
- Abstract(参考訳): 効果的な発音フィードバックは第2言語(L2)学習において重要であり、コンピュータ支援発音訓練(CAPT)システムは、自動発音評価(APA)と誤発音検出・診断(MDD)の2つの重要なタスクを含むことが多い。
近年の研究では、これらの2つのタスクの連成モデリングが相互に利益をもたらすことが示されている。
我々の統合されたフレームワークは、選択状態空間モデル(SSM)であるMambaを活用し、音声学的特徴とシンクトークン戦略を統合して、APAおよびMDDにおける解釈可能性と微粒な時間的推論を協調的に強化する。
本研究は, 音声学的帰属, SSM に基づくモデリング, CAPT を併用した最初の研究であり, 音声言語762 ベンチマークで実施した一連の実験により, 従来手法, 特に MDD タスクにおいて, 従来手法より一貫して優れていたことが実証された。
関連論文リスト
- NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。
提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-01T12:01:40Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss [5.101375571703936]
HMambaは、APAとMDDタスクをシームレスに並列に統合する新しいCAPTアプローチである。
speechocean762ベンチマークデータセットの総合的な実験結果の集合は、我々のAPAに対するアプローチの有効性を示す。
提案手法は,F1スコア63.85%を達成し,強力なベースラインよりもMDD性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T14:17:29Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。