論文の概要: DARS: Dysarthria-Aware Rhythm-Style Synthesis for ASR Enhancement
- arxiv url: http://arxiv.org/abs/2603.01369v1
- Date: Mon, 02 Mar 2026 02:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.649923
- Title: DARS: Dysarthria-Aware Rhythm-Style Synthesis for ASR Enhancement
- Title(参考訳): DARS:ASR増強のためのDysarthria-Aware Rhythm-Style Synthesis
- Authors: Minghui Wu, Xueling Liu, Jiahuan Fan, Haitao Tang, Yanyong Zhang, Yue Zhang,
- Abstract要約: そこで我々は,Matcha-TTS アーキテクチャをベースとした調律対応リズムスタイル合成フレームワーク DARS を提案する。
DARSは多段階のリズム予測器を、通常音声と変形音声のコントラスト的嗜好に最適化し、また、変形性スタイルの条件整合機構を組み込んでいる。
TORGOデータセットの実験では、DARSが4.29の平均ケプストラム歪み(MCD)を達成し、実際の変形音声を密接に近似している。
- 参考スコア(独自算出の注目度): 17.57351491665082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dysarthric speech exhibits abnormal prosody and significant speaker variability, presenting persistent challenges for automatic speech recognition (ASR). While text-to-speech (TTS)-based data augmentation has shown potential, existing methods often fail to accurately model the pathological rhythm and acoustic style of dysarthric speech. To address this, we propose DARS, a dysarthria-aware rhythm-style synthesis framework based on the Matcha-TTS architecture. DARS incorporates a multi-stage rhythm predictor optimized by contrastive preferences between normal and dysarthric speech, along with a dysarthric-style conditional flow matching mechanism, jointly enhancing temporal rhythm reconstruction and pathological acoustic style simulation. Experiments on the TORGO dataset demonstrate that DARS achieves a Mean Cepstral Distortion (MCD) of 4.29, closely approximating real dysarthric speech. Adapting a Whisper-based ASR system with synthetic dysarthric speech from DARS achieves a 54.22% relative reduction in word error rate (WER) compared to state-of-the-art methods, demonstrating the framework's effectiveness in enhancing recognition performance.
- Abstract(参考訳): 変形性発声は異常な韻律と有意な話者変動を示し,自動音声認識(ASR)の難しさを呈する。
テキスト・トゥ・音声(TTS)に基づくデータ拡張は潜在的な可能性を示しているが、既存の方法では、変形性音声の病的リズムと音響的スタイルを正確にモデル化することができないことが多い。
そこで本研究では,Matcha-TTS アーキテクチャをベースとした,変形性を考慮したリズムスタイル合成フレームワーク DARS を提案する。
DARSは、正常音声と変形音声のコントラスト優先により最適化された多段階リズム予測器と、変形性スタイルの条件整合機構と、時間的リズム再構成と病理音響シミュレーションを併用する。
TORGOデータセットの実験では、DARSが4.29の平均ケプストラム歪み(MCD)を達成し、実際の変形音声を密接に近似している。
DARSから合成変形音声をWhisperベースのASRシステムに適用すると、最先端の手法と比較して単語誤り率(WER)は54.22%減少し、認識性能の向上におけるフレームワークの有効性を示す。
関連論文リスト
- Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。
さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文 参考訳(メタデータ) (2026-02-24T14:46:54Z) - Prototype-Based Disentanglement for Controllable Dysarthric Speech Synthesis [2.411338616884766]
変形性音声は、高い変動性とラベル付きデータに制限がある。
現在のアプローチは、合成データ拡張や音声再構成に依存している。
本稿では,プロトタイプベースのディスアングルメント TTS フレームワーク ProtoDisent-TTS を提案する。
論文 参考訳(メタデータ) (2026-02-09T14:14:51Z) - Unsupervised Rhythm and Voice Conversion to Improve ASR on Dysarthric Speech [17.105048387175817]
変形性関節症に対する音声変換法について検討し,ASRの性能改善について検討した。
音節に基づくリズムモデリング手法を導入することにより、リズム・アンド・ボイス(RnV)変換フレームワークを拡張した。
Torgoコーパスの実験により,LF-MMIが単語誤り率の大幅な低減を実現していることが明らかになった。
論文 参考訳(メタデータ) (2025-06-02T12:57:36Z) - Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [49.31519786009296]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。
次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。
生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文 参考訳(メタデータ) (2025-05-20T20:03:45Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Accurate synthesis of Dysarthric Speech for ASR data augmentation [5.223856537504927]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
本稿では,ASRトレーニングデータ拡張を目的とした新しい音声合成法を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:42:24Z) - Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric
Speech Recognition [4.637732011720613]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
頑健な変形性障害に対処するためには,十分な訓練音声が必要である。
テキスト音声合成の最近の進歩は、データ拡張に合成を利用する可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T15:22:09Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for
Improved Dysarthric Speech Recognition [24.07996218669781]
変形性音声の高機能化のためのGAN音声変換法について検討した。
定常雑音除去やボコーダに基づく時間ストレッチといった単純な信号処理手法は,最新のGANベースの音声変換法で得られるものと同等の変形性音声認識結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-01-13T11:56:13Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。