論文の概要: End-to-End Simultaneous Dysarthric Speech Reconstruction with Frame-Level Adaptor and Multiple Wait-k Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2603.01382v1
- Date: Mon, 02 Mar 2026 02:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.654368
- Title: End-to-End Simultaneous Dysarthric Speech Reconstruction with Frame-Level Adaptor and Multiple Wait-k Knowledge Distillation
- Title(参考訳): フレームレベルアダプタとマルチウェイト-k知識蒸留を用いた終端・終端同時解像音声再構成
- Authors: Minghui Wu, Haitao Tang, Jiahuan Fan, Ruizhi Liao, Yanyong Zhang,
- Abstract要約: 外科的音声再構成(DSR)は通常、自動音声認識(ASR)と文レベルの音声合成(TTS)を組み合わせたカスケードシステムを用いる。
我々のシステムは、Tesla A100上での平均応答時間1.03秒であり、平均リアルタイムファクタ(RTF)は0.71である。
- 参考スコア(独自算出の注目度): 12.615955255383525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dysarthric speech reconstruction (DSR) typically employs a cascaded system that combines automatic speech recognition (ASR) and sentence-level text-to-speech (TTS) to convert dysarthric speech into normally-prosodied speech. However, dysarthric individuals often speak more slowly, leading to excessively long response times in such systems, rendering them impractical in long-speech scenarios. Cascaded DSR systems based on streaming ASR and incremental TTS can help reduce latency. However, patients with differing dysarthria severity exhibit substantial pronunciation variability for the same text, resulting in poor robustness of ASR and limiting the intelligibility of reconstructed speech. In addition, incremental TTS suffers from poor prosodic feature prediction due to a limited receptive field. In this study, we propose an end-to-end simultaneous DSR system with two key innovations: 1) A frame-level adaptor module is introduced to bridge ASR and TTS. By employing explicit-implicit semantic information fusion and joint module training, it enhances the error tolerance of TTS to ASR outputs. 2) A multiple wait-k autoregressive TTS module is designed to mitigate prosodic degradation via multi-view knowledge distillation. Our system has an average response time of 1.03 seconds on Tesla A100, with an average real-time factor (RTF) of 0.71. On the UASpeech dataset, it attains a mean opinion score (MOS) of 4.67 and demonstrates a 54.25% relative reduction in word error rate (WER) compared to the state-of-the-art. Our demo is available at: https://wflrz123.github.io/
- Abstract(参考訳): 変形性音声再構成(DSR)は通常、自動音声認識(ASR)と文レベルテキスト音声(TTS)を組み合わせて、変形性音声を通常の音声に変換するカスケードシステムを用いる。
しかし、障害のある個人はよりゆっくり話すことが多く、そのようなシステムでは過度に長時間の応答時間がかかり、長い音声のシナリオでは非現実的になる。
ストリーミングASRとインクリメンタルTSに基づくカスケードDSRシステムは、レイテンシの低減に役立つ。
しかし, 異時性難聴患者では, 同一文字の発音変化が顕著であり, ASRの頑健さが低下し, 再建音声の明瞭さが制限された。
さらに、増分性TSは、受容野が限られているため、韻律的特徴予測に苦しむ。
本研究では,2つの重要なイノベーションを持つエンドツーエンドのDSRシステムを提案する。
1) ASRとTSを橋渡しするためにフレームレベルのアダプタモジュールを導入する。
明示的単純意味情報融合とジョイントモジュールトレーニングを利用することで、TSからASR出力へのエラー耐性を高める。
2) マルチビュー知識蒸留による韻律劣化を軽減するために, マルチウェイト-k自己回帰TTSモジュールを設計した。
我々のシステムは、Tesla A100上での平均応答時間1.03秒であり、平均リアルタイムファクタ(RTF)は0.71である。
UASpeechデータセットでは、平均世論スコア(MOS)が4.67に達し、最先端と比較して単語誤り率(WER)が54.25%減少していることを示す。
私たちのデモは、https://wflrz123.github.io/で公開されています。
関連論文リスト
- Unsupervised Rhythm and Voice Conversion to Improve ASR on Dysarthric Speech [17.105048387175817]
変形性関節症に対する音声変換法について検討し,ASRの性能改善について検討した。
音節に基づくリズムモデリング手法を導入することにより、リズム・アンド・ボイス(RnV)変換フレームワークを拡張した。
Torgoコーパスの実験により,LF-MMIが単語誤り率の大幅な低減を実現していることが明らかになった。
論文 参考訳(メタデータ) (2025-06-02T12:57:36Z) - Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。
我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。
我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文 参考訳(メタデータ) (2024-11-01T19:11:54Z) - Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR [13.307889110301502]
ASRモデルのトレーニングに使用する場合, DPM(Denoising Diffusion Probabilistic Models)とTSのMean Squared Error(MSE)ベースのモデルを比較した。
与えられたモデルサイズに対して、DDPMはMSEモデルよりも多くのデータとより多様な話者の集合をうまく利用することができる。
実話と合成音声のWERの比率(1.46)は最も高いが,大きなギャップが残っていることも確認できた。
論文 参考訳(メタデータ) (2024-10-16T06:35:56Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric
Speech Recognition [4.637732011720613]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
頑健な変形性障害に対処するためには,十分な訓練音声が必要である。
テキスト音声合成の最近の進歩は、データ拡張に合成を利用する可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T15:22:09Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。