論文の概要: Improving Dysarthric Speech Intelligibility Using Cycle-consistent
Adversarial Training
- arxiv url: http://arxiv.org/abs/2001.04260v1
- Date: Fri, 10 Jan 2020 01:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:31:07.126864
- Title: Improving Dysarthric Speech Intelligibility Using Cycle-consistent
Adversarial Training
- Title(参考訳): 周期整合型対位訓練による関節症音声の明瞭度向上
- Authors: Seung Hee Yang, Minhwa Chung
- Abstract要約: 本研究の目的は,Cycle-Consistent GANを用いた難聴から健全な音声変換のためのモデルを開発することである。
ジェネレータは、関節をスペクトル領域の健全な音声に変換するように訓練され、その後音声に変換される。
- 参考スコア(独自算出の注目度): 4.050982413149992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dysarthria is a motor speech impairment affecting millions of people.
Dysarthric speech can be far less intelligible than those of non-dysarthric
speakers, causing significant communication difficulties. The goal of our work
is to develop a model for dysarthric to healthy speech conversion using
Cycle-consistent GAN. Using 18,700 dysarthric and 8,610 healthy control Korean
utterances that were recorded for the purpose of automatic recognition of voice
keyboard in a previous study, the generator is trained to transform dysarthric
to healthy speech in the spectral domain, which is then converted back to
speech. Objective evaluation using automatic speech recognition of the
generated utterance on a held-out test set shows that the recognition
performance is improved compared with the original dysarthic speech after
performing adversarial training, as the absolute WER has been lowered by 33.4%.
It demonstrates that the proposed GAN-based conversion method is useful for
improving dysarthric speech intelligibility.
- Abstract(参考訳): Dysarthriaは何百万人もの人に影響を及ぼす運動障害である。
dystorric speechは、非dysarthric speakersのそれよりもはるかに知性が低く、重大なコミュニケーションの困難を引き起こす。
本研究の目的は,周期整合ganを用いた健常者への構音変換モデルの開発である。
前回の研究では、音声キーボードの自動認識を目的として録音された18,700個のダイアースリックと8,610個の健康管理韓国語発話を用いて、生成器はスペクトル領域の健全な音声に変換するように訓練され、その後、音声に変換される。
ホールドアウトテストセット上で生成された発話の自動音声認識を用いた客観的評価は、絶対 wer を33.4%下げたために、逆行訓練を行った後、元の義足音声と比較して認識性能が向上したことを示す。
提案手法は, 変形性音声の聴力向上に有用であることを示す。
関連論文リスト
- Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition [40.44769351506048]
Perceiver-PromptはWhisperの大規模モデル上でP-Tuningを利用する話者適応手法である。
我々はまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合して可変長入力から固定長話者プロンプトを生成する。
論文 参考訳(メタデータ) (2024-06-14T09:36:46Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Accurate synthesis of Dysarthric Speech for ASR data augmentation [5.223856537504927]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
本稿では,ASRトレーニングデータ拡張を目的とした新しい音声合成法を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:42:24Z) - Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based
Augmentation [4.874780144224057]
本研究の目的は,多段階拡張アプローチによるアラビア語義歯の自動音声認識の性能向上である。
そこで本研究ではまず,健常なアラビア語から変形性アラビア語を生成するための信号に基づくアプローチを提案する。
また,2段階のPWG(Parallel Wave Generative)逆解析モデルを提案する。
論文 参考訳(メタデータ) (2023-06-07T12:01:46Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for
Improved Dysarthric Speech Recognition [24.07996218669781]
変形性音声の高機能化のためのGAN音声変換法について検討した。
定常雑音除去やボコーダに基づく時間ストレッチといった単純な信号処理手法は,最新のGANベースの音声変換法で得られるものと同等の変形性音声認識結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-01-13T11:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。