Fugu-MT 論文翻訳(概要): Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

論文の概要: Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

arxiv url: http://arxiv.org/abs/2501.10256v1
Date: Fri, 17 Jan 2025 15:39:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.813332
Title: Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR
Title（参考訳）: ASR音声の非教師的リズムとDysarthricの音声変換
Authors: Karl El Hajal, Enno Hermann, Ajinkya Kulkarni, Mathew Magimai. -Doss,
Abstract要約: 自己教師付き音声表現に基づくリズムと音声の変換手法を組み合わせることで、典型的な音声に変形をマッピングする。提案したリズム変換は, より重篤な変形症例を有するトーゴコーパスの話者のパフォーマンスを特に向上させることが判明した。
参考スコア（独自算出の注目度）: 18.701864254184308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic speech recognition (ASR) systems are well known to perform poorly on dysarthric speech. Previous works have addressed this by speaking rate modification to reduce the mismatch with typical speech. Unfortunately, these approaches rely on transcribed speech data to estimate speaking rates and phoneme durations, which might not be available for unseen speakers. Therefore, we combine unsupervised rhythm and voice conversion methods based on self-supervised speech representations to map dysarthric to typical speech. We evaluate the outputs with a large ASR model pre-trained on healthy speech without further fine-tuning and find that the proposed rhythm conversion especially improves performance for speakers of the Torgo corpus with more severe cases of dysarthria. Code and audio samples are available at https://idiap.github.io/RnV .
Abstract（参考訳）: 自動音声認識システム (ASR) は, 変形性発声に悪影響を及ぼすことが知られている。従来の研究は、一般的な音声とのミスマッチを減らすために、発話率の修正によってこの問題に対処してきた。残念なことに、これらのアプローチは発話速度と音素持続時間を推定するために書き起こされた音声データに依存しており、これは目に見えない話者には利用できないかもしれない。そこで,本研究では,自己教師付き音声表現に基づく非教師付きリズムと音声変換の手法を組み合わせることで,典型的な音声に変形をマッピングする。本研究では,より微調整を行なわずに健常者音声に事前学習した大ASRモデルを用いて評価を行い,より重度な変形を伴うTorgoコーパスの話者に対するリズム変換が特に改善することを見出した。コードとオーディオサンプルはhttps://idiap.github.io/RnV で公開されている。

関連論文リスト

Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文参考訳（メタデータ） (2025-06-23T15:30:50Z)
Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文参考訳（メタデータ） (2025-06-19T08:24:17Z)
Unsupervised Rhythm and Voice Conversion to Improve ASR on Dysarthric Speech [17.105048387175817]
変形性関節症に対する音声変換法について検討し,ASRの性能改善について検討した。音節に基づくリズムモデリング手法を導入することにより、リズム・アンド・ボイス(RnV)変換フレームワークを拡張した。 Torgoコーパスの実験により,LF-MMIが単語誤り率の大幅な低減を実現していることが明らかになった。
論文参考訳（メタデータ） (2025-06-02T12:57:36Z)
Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [32.61962553268565]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文参考訳（メタデータ） (2025-05-20T20:03:45Z)
Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文参考訳（メタデータ） (2024-11-01T19:11:54Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。話者の類似度は低く、プロソディの自然度は低い。本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文参考訳（メタデータ） (2024-06-12T15:42:21Z)
UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。 NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文参考訳（メタデータ） (2024-01-26T06:08:47Z)
A Textless Metric for Speech-to-Speech Comparison [20.658229254191266]
テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
論文参考訳（メタデータ） (2022-10-21T09:28:54Z)
Cross-lingual Self-Supervised Speech Representations for Improved Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文参考訳（メタデータ） (2022-04-04T17:36:01Z)
Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。話者識別に最適化された話者エンコーダ (SE) について検討した。我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文参考訳（メタデータ） (2022-02-18T08:59:36Z)
Investigation of Data Augmentation Techniques for Disordered Speech Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。正常な音声と無秩序な音声の両方が増強過程に利用された。 UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文参考訳（メタデータ） (2022-01-14T17:09:22Z)
Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文参考訳（メタデータ） (2021-06-18T20:58:34Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。