論文の概要: Towards Identity Preserving Normal to Dysarthric Voice Conversion
- arxiv url: http://arxiv.org/abs/2110.08213v1
- Date: Fri, 15 Oct 2021 17:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 15:53:00.585484
- Title: Towards Identity Preserving Normal to Dysarthric Voice Conversion
- Title(参考訳): 正常から義肢への音声変換のアイデンティティ維持に向けて
- Authors: Wen-Chin Huang, Bence Mark Halpern, Lester Phillip Violeta, Odette
Scharenborg, Tomoki Toda
- Abstract要約: 本稿では, 話者識別を保ちながら, 正常音声を変形音声に変換する枠組みを提案する。
本研究は,(1)患者のストレスを緩和する臨床的意思決定プロセス,(2)顎関節症音声認識のためのデータ増強に不可欠である。
- 参考スコア(独自算出の注目度): 37.648612382457756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a voice conversion framework that converts normal speech into
dysarthric speech while preserving the speaker identity. Such a framework is
essential for (1) clinical decision making processes and alleviation of patient
stress, (2) data augmentation for dysarthric speech recognition. This is an
especially challenging task since the converted samples should capture the
severity of dysarthric speech while being highly natural and possessing the
speaker identity of the normal speaker. To this end, we adopted a two-stage
framework, which consists of a sequence-to-sequence model and a nonparallel
frame-wise model. Objective and subjective evaluations were conducted on the
UASpeech dataset, and results showed that the method was able to yield
reasonable naturalness and capture severity aspects of the pathological speech.
On the other hand, the similarity to the normal source speaker's voice was
limited and requires further improvements.
- Abstract(参考訳): 話者の身元を保ちながら、通常の音声を変形音声に変換する音声変換フレームワークを提案する。
このような枠組みは,(1)臨床的意思決定過程と患者のストレス軽減,(2)構音障害音声認識のためのデータ拡張に不可欠である。
変換されたサンプルは、非常に自然で通常の話者の話者同一性を持ちながら、調音障害の重大さを捉えるべきであるため、これは特に難しい課題である。
この目的のために,シーケンシャル・ツー・シーケンスモデルと非並列フレームワイズモデルからなる2段階フレームワークを採用した。
UASpeechデータセットを用いて目的的,主観的な評価を行い,本手法が適切な自然性を獲得し,病的音声の重症度を捉えることができることを示した。
一方、通常の音源話者の声との類似性は限られており、さらなる改善が必要であった。
関連論文リスト
- DyPCL: Dynamic Phoneme-level Contrastive Learning for Dysarthric Speech Recognition [12.923409319624254]
変形性音声認識のギャップを埋める動的音素レベルのコントラスト学習(DyPCL)法を提案する。
音声の発話を音素レベルのコントラスト学習のための音素セグメントに分解し、動的接続性時間的分類アライメントを活用する。
難易度による訓練への我々のアプローチは、話者の固有の多様性を軽減し、難易度の高い発話を識別する。
論文 参考訳(メタデータ) (2025-01-31T10:25:42Z) - Investigating the Effects of Diffusion-based Conditional Generative Speech Models Used for Speech Enhancement on Dysarthric Speech [7.787211625411271]
本研究は, 理想的な非雑音環境下で記録された変形性音声データの強調過程において, 音響的変形性音声手がかりのいくつかが失われることを実験的に示す。
特徴空間内の入力音声信号と融合した場合に,残響音声信号の形で拡張モデルにより除去された音響的手がかりが相補的な外科的手がかりとなることを示す。
論文 参考訳(メタデータ) (2024-12-18T15:18:05Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Pathological voice adaptation with autoencoder-based voice conversion [15.687800631199616]
音源として健全な音声を使用する代わりに、既存の病的音声サンプルを新しい話者の音声特性にカスタマイズする。
この手法は,典型的な音声を病的音声に変換する際に通常持つ評価問題を緩和する。
論文 参考訳(メタデータ) (2021-06-15T20:38:10Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。