論文の概要: Towards Identity Preserving Normal to Dysarthric Voice Conversion
- arxiv url: http://arxiv.org/abs/2110.08213v1
- Date: Fri, 15 Oct 2021 17:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 15:53:00.585484
- Title: Towards Identity Preserving Normal to Dysarthric Voice Conversion
- Title(参考訳): 正常から義肢への音声変換のアイデンティティ維持に向けて
- Authors: Wen-Chin Huang, Bence Mark Halpern, Lester Phillip Violeta, Odette
Scharenborg, Tomoki Toda
- Abstract要約: 本稿では, 話者識別を保ちながら, 正常音声を変形音声に変換する枠組みを提案する。
本研究は,(1)患者のストレスを緩和する臨床的意思決定プロセス,(2)顎関節症音声認識のためのデータ増強に不可欠である。
- 参考スコア(独自算出の注目度): 37.648612382457756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a voice conversion framework that converts normal speech into
dysarthric speech while preserving the speaker identity. Such a framework is
essential for (1) clinical decision making processes and alleviation of patient
stress, (2) data augmentation for dysarthric speech recognition. This is an
especially challenging task since the converted samples should capture the
severity of dysarthric speech while being highly natural and possessing the
speaker identity of the normal speaker. To this end, we adopted a two-stage
framework, which consists of a sequence-to-sequence model and a nonparallel
frame-wise model. Objective and subjective evaluations were conducted on the
UASpeech dataset, and results showed that the method was able to yield
reasonable naturalness and capture severity aspects of the pathological speech.
On the other hand, the similarity to the normal source speaker's voice was
limited and requires further improvements.
- Abstract(参考訳): 話者の身元を保ちながら、通常の音声を変形音声に変換する音声変換フレームワークを提案する。
このような枠組みは,(1)臨床的意思決定過程と患者のストレス軽減,(2)構音障害音声認識のためのデータ拡張に不可欠である。
変換されたサンプルは、非常に自然で通常の話者の話者同一性を持ちながら、調音障害の重大さを捉えるべきであるため、これは特に難しい課題である。
この目的のために,シーケンシャル・ツー・シーケンスモデルと非並列フレームワイズモデルからなる2段階フレームワークを採用した。
UASpeechデータセットを用いて目的的,主観的な評価を行い,本手法が適切な自然性を獲得し,病的音声の重症度を捉えることができることを示した。
一方、通常の音源話者の声との類似性は限られており、さらなる改善が必要であった。
関連論文リスト
- Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition [40.44769351506048]
Perceiver-PromptはWhisperの大規模モデル上でP-Tuningを利用する話者適応手法である。
我々はまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合して可変長入力から固定長話者プロンプトを生成する。
論文 参考訳(メタデータ) (2024-06-14T09:36:46Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Pathological voice adaptation with autoencoder-based voice conversion [15.687800631199616]
音源として健全な音声を使用する代わりに、既存の病的音声サンプルを新しい話者の音声特性にカスタマイズする。
この手法は,典型的な音声を病的音声に変換する際に通常持つ評価問題を緩和する。
論文 参考訳(メタデータ) (2021-06-15T20:38:10Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。