論文の概要: Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection
- arxiv url: http://arxiv.org/abs/2505.16351v1
- Date: Thu, 22 May 2025 08:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.136092
- Title: Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection
- Title(参考訳): Dysfluent WFST: ゼロショット音声のDysfluency Transcriptionと検出のためのフレームワーク
- Authors: Chenxu Guo, Jiachen Lian, Xuanru Zhou, Jinming Zhang, Shuhe Li, Zongli Ye, Hwi Joo Park, Anaisha Das, Zoe Ezzes, Jet Vonk, Brittany Morin, Rian Bogley, Lisa Wauters, Zachary Miller, Maria Gorno-Tempini, Gopala Anumanchipalli,
- Abstract要約: Dysfluent-WFSTはゼロショットデコーダで、音素を同時に書き起こし、逆流を検出する。
模擬および実音声データにおける音素誤り率とディフルエンシ検出の両面での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 5.512072120303165
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic detection of speech dysfluency aids speech-language pathologists in efficient transcription of disordered speech, enhancing diagnostics and treatment planning. Traditional methods, often limited to classification, provide insufficient clinical insight, and text-independent models misclassify dysfluency, especially in context-dependent cases. This work introduces Dysfluent-WFST, a zero-shot decoder that simultaneously transcribes phonemes and detects dysfluency. Unlike previous models, Dysfluent-WFST operates with upstream encoders like WavLM and requires no additional training. It achieves state-of-the-art performance in both phonetic error rate and dysfluency detection on simulated and real speech data. Our approach is lightweight, interpretable, and effective, demonstrating that explicit modeling of pronunciation behavior in decoding, rather than complex architectures, is key to improving dysfluency processing systems.
- Abstract(参考訳): 言語障害の自動検出は、障害のある音声の効率的な転写、診断と治療計画の強化に役立つ。
伝統的な手法は、しばしば分類に限られており、臨床的な洞察が不十分であり、特に文脈に依存したケースにおいて、テキストに依存しないモデルは、逆流を誤分類する。
この研究は、ゼロショットデコーダであるDysfluent-WFSTを導入し、音素を同時に書き起こし、ディフルエンシを検出する。
従来のモデルとは異なり、Dysfluent-WFSTはWavLMのような上流エンコーダで動作し、追加のトレーニングを必要としない。
模擬および実音声データにおける音素誤り率とディフルエンシ検出の両面での最先端性能を実現する。
我々のアプローチは軽量で解釈可能で効果的であり、複雑なアーキテクチャではなく、復号における発音動作の明示的なモデリングが、ディフルエンシ処理システムを改善する鍵であることを実証している。
関連論文リスト
- Towards Hierarchical Spoken Language Dysfluency Modeling [8.45042473491412]
言語障害モデリングは、言語療法と言語学習の両方においてボトルネックとなる。
UDMの階層的拡張であるH-UDM(Hierarchical Unconstrained Disfluency Modeling)アプローチを提案する。
実験結果から,提案手法の有効性と信頼性が明らかとなった。
論文 参考訳(メタデータ) (2024-01-18T14:33:01Z) - Automatic Disfluency Detection from Untranscribed Speech [25.534535098405602]
発声は、高頻度の不一致を特徴とする発声障害である。
自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。
本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
論文 参考訳(メタデータ) (2023-11-01T21:36:39Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Streaming Joint Speech Recognition and Disfluency Detection [30.018034246393725]
音声認識と拡散検出を共同で解くトランスフォーマーベースのエンコーダデコーダモデルを提案する。
パイプラインアプローチと比較して、ジョイントモデルは、認識エラーに対して拡散検出を堅牢にする音響情報を利用することができる。
提案したジョイントモデルでは,BERTベースのパイプラインアプローチよりも精度とレイテンシが優れていた。
論文 参考訳(メタデータ) (2022-11-16T07:34:20Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。