論文の概要: JCAPT: A Joint Modeling Approach for CAPT
- arxiv url: http://arxiv.org/abs/2506.19315v1
- Date: Tue, 24 Jun 2025 05:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.496145
- Title: JCAPT: A Joint Modeling Approach for CAPT
- Title(参考訳): JCAPT:CAPTの合同モデリング手法
- Authors: Tzu-Hsuan Yang, Yue-Yang He, Berlin Chen,
- Abstract要約: 本研究は、音韻的属性、SSMに基づくモデリング、CAPTにおけるプロンプトを組み合わせた最初のものである。
speechocean762ベンチマークで行った一連の実験は、我々のモデルが従来手法より一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 4.1088673993841685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective pronunciation feedback is critical in second language (L2) learning, for which computer-assisted pronunciation training (CAPT) systems often encompass two key tasks: automatic pronunciation assessment (APA) and mispronunciation detection and diagnosis (MDD). Recent work has shown that joint modeling of these two tasks can yield mutual benefits. Our unified framework leverages Mamba, a selective state space model (SSM), while integrating phonological features and think token strategies to jointly enhance interpretability and fine-grained temporal reasoning in APA and MDD. To our knowledge, this is the first study to combine phonological attribution, SSM-based modeling, and prompting in CAPT. A series of experiments conducted on the speechocean762 benchmark demonstrate that our model consistently outperforms prior methods, particularly on the MDD task.
- Abstract(参考訳): 効果的な発音フィードバックは第2言語(L2)学習において重要であり、コンピュータ支援発音訓練(CAPT)システムは、自動発音評価(APA)と誤発音検出・診断(MDD)の2つの重要なタスクを含むことが多い。
近年の研究では、これらの2つのタスクの連成モデリングが相互に利益をもたらすことが示されている。
我々の統合されたフレームワークは、選択状態空間モデル(SSM)であるMambaを活用し、音声学的特徴とシンクトークン戦略を統合して、APAおよびMDDにおける解釈可能性と微粒な時間的推論を協調的に強化する。
本研究は, 音声学的帰属, SSM に基づくモデリング, CAPT を併用した最初の研究であり, 音声言語762 ベンチマークで実施した一連の実験により, 従来手法, 特に MDD タスクにおいて, 従来手法より一貫して優れていたことが実証された。
関連論文リスト
- Zero-Shot Cognitive Impairment Detection from Speech Using AudioLLM [9.84961079811343]
音声は、認知低下を評価するための非侵襲的で容易に収集可能なバイオマーカーとして注目されている。
従来の認知障害検出法は、音声から抽出された音響的特徴と言語的特徴に基づいて訓練された教師付きモデルに依存している。
音声入力とテキスト入力の両方を処理可能なモデルであるQwen2- Audio AudioLLMを用いた,最初のゼロショット音声ベースのCI検出手法を提案する。
論文 参考訳(メタデータ) (2025-06-20T01:28:43Z) - NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。
提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-01T12:01:40Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss [5.101375571703936]
HMambaは、APAとMDDタスクをシームレスに並列に統合する新しいCAPTアプローチである。
speechocean762ベンチマークデータセットの総合的な実験結果の集合は、我々のAPAに対するアプローチの有効性を示す。
提案手法は,F1スコア63.85%を達成し,強力なベースラインよりもMDD性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T14:17:29Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Automating Intervention Discovery from Scientific Literature: A Progressive Ontology Prompting and Dual-LLM Framework [56.858564736806414]
本稿では,大規模言語モデル(LLM)を利用した科学文献の介入の同定手法を提案する。
言語病理領域における64,177論文のコーパスから,2,421件の介入が得られた。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。