論文の概要: The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for
Improved Dysarthric Speech Recognition
- arxiv url: http://arxiv.org/abs/2201.04908v1
- Date: Thu, 13 Jan 2022 11:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 20:57:16.405517
- Title: The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for
Improved Dysarthric Speech Recognition
- Title(参考訳): 変形性関節症音声認識における時間ストレッチの効果
- Authors: Luke Prananta, Bence Mark Halpern, Siyuan Feng, Odette Scharenborg
- Abstract要約: 変形性音声の高機能化のためのGAN音声変換法について検討した。
定常雑音除去やボコーダに基づく時間ストレッチといった単純な信号処理手法は,最新のGANベースの音声変換法で得られるものと同等の変形性音声認識結果をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 24.07996218669781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate several existing and a new state-of-the-art
generative adversarial network-based (GAN) voice conversion method for
enhancing dysarthric speech for improved dysarthric speech recognition. We
compare key components of existing methods as part of a rigorous ablation study
to find the most effective solution to improve dysarthric speech recognition.
We find that straightforward signal processing methods such as stationary noise
removal and vocoder-based time stretching lead to dysarthric speech recognition
results comparable to those obtained when using state-of-the-art GAN-based
voice conversion methods as measured using a phoneme recognition task.
Additionally, our proposed solution of a combination of MaskCycleGAN-VC and
time stretched enhancement is able to improve the phoneme recognition results
for certain dysarthric speakers compared to our time stretched baseline.
- Abstract(参考訳): 本稿では, 変形性関節症の音声認識を改善するために, 変形性音声の高機能化のためのGAN音声変換法について検討する。
既存の方法の重要成分を厳密なアブレーション研究の一環として比較し,dysarthric speech recognitionの最も効果的な解を求める。
定常ノイズ除去やvocoderに基づく時間伸長といった単純な信号処理手法は,音素認識タスクで測定した最先端のganに基づく音声変換手法を用いた場合と同等のジアースリック音声認識結果をもたらすことが判明した。
さらに,maskCycleGAN-VCと時間伸張拡張を組み合わせた提案手法は,時間伸張ベースラインと比較して,特定の変形性スピーカの音素認識結果を改善することができる。
関連論文リスト
- Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition [40.44769351506048]
Perceiver-PromptはWhisperの大規模モデル上でP-Tuningを利用する話者適応手法である。
我々はまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合して可変長入力から固定長話者プロンプトを生成する。
論文 参考訳(メタデータ) (2024-06-14T09:36:46Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Accurate synthesis of Dysarthric Speech for ASR data augmentation [5.223856537504927]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
本稿では,ASRトレーニングデータ拡張を目的とした新しい音声合成法を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:42:24Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech
Recognition [14.544989316741091]
本稿では,失語症,失語症,構音障害に対する自動音声認識システムの性能を向上させるための深層学習に基づくアルゴリズムを提案する。
分離音声認識タスクにおいて,テスト時間中のデコード性能が50%以上向上することを示す。
その結果, 失語症, 失語症, 構音障害から回復した脳卒中患者の実時間ロバスト音声補綴物の設計に非侵襲的神経信号を利用する可能性を示す第一歩が示された。
論文 参考訳(メタデータ) (2021-02-28T03:27:02Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Improving Dysarthric Speech Intelligibility Using Cycle-consistent
Adversarial Training [4.050982413149992]
本研究の目的は,Cycle-Consistent GANを用いた難聴から健全な音声変換のためのモデルを開発することである。
ジェネレータは、関節をスペクトル領域の健全な音声に変換するように訓練され、その後音声に変換される。
論文 参考訳(メタデータ) (2020-01-10T01:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。