論文の概要: Investigating the Effects of Diffusion-based Conditional Generative Speech Models Used for Speech Enhancement on Dysarthric Speech
- arxiv url: http://arxiv.org/abs/2412.13933v1
- Date: Wed, 18 Dec 2024 15:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:22:51.295716
- Title: Investigating the Effects of Diffusion-based Conditional Generative Speech Models Used for Speech Enhancement on Dysarthric Speech
- Title(参考訳): 音声強調に用いる拡散型条件生成音声モデルが変形性音声に与える影響の検討
- Authors: Joanna Reszka, Parvaneh Janbakhshi, Tilak Purohit, Sadegh Mohammadi,
- Abstract要約: 本研究は, 理想的な非雑音環境下で記録された変形性音声データの強調過程において, 音響的変形性音声手がかりのいくつかが失われることを実験的に示す。
特徴空間内の入力音声信号と融合した場合に,残響音声信号の形で拡張モデルにより除去された音響的手がかりが相補的な外科的手がかりとなることを示す。
- 参考スコア(独自算出の注目度): 7.787211625411271
- License:
- Abstract: In this study, we aim to explore the effect of pre-trained conditional generative speech models for the first time on dysarthric speech due to Parkinson's disease recorded in an ideal/non-noisy condition. Considering one category of generative models, i.e., diffusion-based speech enhancement, these models are previously trained to learn the distribution of clean (i.e, recorded in a noise-free environment) typical speech signals. Therefore, we hypothesized that when being exposed to dysarthric speech they might remove the unseen atypical paralinguistic cues during the enhancement process. By considering the automatic dysarthric speech detection task, in this study, we experimentally show that during the enhancement process of dysarthric speech data recorded in an ideal non-noisy environment, some of the acoustic dysarthric speech cues are lost. Therefore such pre-trained models are not yet suitable in the context of dysarthric speech enhancement since they manipulate the pathological speech cues when they process clean dysarthric speech. Furthermore, we show that the removed acoustics cues by the enhancement models in the form of residue speech signal can provide complementary dysarthric cues when fused with the original input speech signal in the feature space.
- Abstract(参考訳): そこで本研究では,パーキンソン病による変形性発声に対する事前学習条件生成音声モデルの影響について検討する。
拡散に基づく音声強調という生成モデルの1つのカテゴリを考慮すると、これらのモデルは従来、クリーンな(ノイズのない環境で記録される)典型的な音声信号の分布を学習するために訓練されていた。
そこで, 変形性音声に曝露された場合, 拡張過程において, 非典型的パラ言語的手がかりを除去する可能性が示唆された。
本研究は,非雑音環境下で記録された変形性音声データの拡張過程において,音響的変形性音声の手がかりの一部が失われることを実験的に示す。
そのため、これらの事前訓練されたモデルは、清潔な音声処理を行う際に、病的音声キューを操作するため、変形性音声強調の文脈ではまだ適切ではない。
さらに,残響音声信号の形で拡張モデルにより除去された音響的手がかりは,特徴空間における元の入力音声信号と融合した場合に相補的な変形的手がかりを与えることができることを示す。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition [40.44769351506048]
Perceiver-PromptはWhisperの大規模モデル上でP-Tuningを利用する話者適応手法である。
我々はまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合して可変長入力から固定長話者プロンプトを生成する。
論文 参考訳(メタデータ) (2024-06-14T09:36:46Z) - Accurate synthesis of Dysarthric Speech for ASR data augmentation [5.223856537504927]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
本稿では,ASRトレーニングデータ拡張を目的とした新しい音声合成法を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:42:24Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Towards Identity Preserving Normal to Dysarthric Voice Conversion [37.648612382457756]
本稿では, 話者識別を保ちながら, 正常音声を変形音声に変換する枠組みを提案する。
本研究は,(1)患者のストレスを緩和する臨床的意思決定プロセス,(2)顎関節症音声認識のためのデータ増強に不可欠である。
論文 参考訳(メタデータ) (2021-10-15T17:18:02Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech
Recognition [14.544989316741091]
本稿では,失語症,失語症,構音障害に対する自動音声認識システムの性能を向上させるための深層学習に基づくアルゴリズムを提案する。
分離音声認識タスクにおいて,テスト時間中のデコード性能が50%以上向上することを示す。
その結果, 失語症, 失語症, 構音障害から回復した脳卒中患者の実時間ロバスト音声補綴物の設計に非侵襲的神経信号を利用する可能性を示す第一歩が示された。
論文 参考訳(メタデータ) (2021-02-28T03:27:02Z) - Improving Dysarthric Speech Intelligibility Using Cycle-consistent
Adversarial Training [4.050982413149992]
本研究の目的は,Cycle-Consistent GANを用いた難聴から健全な音声変換のためのモデルを開発することである。
ジェネレータは、関節をスペクトル領域の健全な音声に変換するように訓練され、その後音声に変換される。
論文 参考訳(メタデータ) (2020-01-10T01:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。