論文の概要: A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion
- arxiv url: http://arxiv.org/abs/2106.01415v1
- Date: Wed, 2 Jun 2021 18:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-06-05 06:40:47.444446
- Title: A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion
- Title(参考訳): 変形性音声変換における話者識別のための2段階パラダイムの予備的検討
- Authors: Wen-Chin Huang, Kazuhiro Kobayashi, Yu-Huai Peng, Ching-Feng Liu, Yu
Tsao, Hsin-Min Wang, Tomoki Toda
- Abstract要約: 変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
- 参考スコア(独自算出の注目度): 50.040466658605524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new paradigm for maintaining speaker identity in dysarthric
voice conversion (DVC). The poor quality of dysarthric speech can be greatly
improved by statistical VC, but as the normal speech utterances of a dysarthria
patient are nearly impossible to collect, previous work failed to recover the
individuality of the patient. In light of this, we suggest a novel, two-stage
approach for DVC, which is highly flexible in that no normal speech of the
patient is required. First, a powerful parallel sequence-to-sequence model
converts the input dysarthric speech into a normal speech of a reference
speaker as an intermediate product, and a nonparallel, frame-wise VC model
realized with a variational autoencoder then converts the speaker identity of
the reference speech back to that of the patient while assumed to be capable of
preserving the enhanced quality. We investigate several design options.
Experimental evaluation results demonstrate the potential of our approach to
improving the quality of the dysarthric speech while maintaining the speaker
identity.
- Abstract(参考訳): ダイアートリック音声変換(dvc)における話者アイデンティティ維持のための新しいパラダイムを提案する。
統計学的vcにより, 構音の質の低下は著しく改善するが, 構音障害患者の正常な発話は収集がほぼ不可能であるため, これまでの研究は患者の個性回復に失敗した。
そこで本研究では,DVCに対する新たな2段階的アプローチを提案する。
まず、強力な並列シーケンス・ツー・シーケンスモデルにより、入力されたdysarthric音声を中間生成物として基準話者の通常の音声に変換し、変分オートエンコーダで実現された非並列フレームワイズvcモデルにより、拡張された品質を保ちながら、基準音声の話者アイデンティティを患者の声に変換する。
いくつかの設計オプションについて検討する。
実験評価の結果, 話者同一性を維持しつつ, 構音質を向上させるためのアプローチの可能性が示された。
関連論文リスト
- Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Towards Identity Preserving Normal to Dysarthric Voice Conversion [37.648612382457756]
本稿では, 話者識別を保ちながら, 正常音声を変形音声に変換する枠組みを提案する。
本研究は,(1)患者のストレスを緩和する臨床的意思決定プロセス,(2)顎関節症音声認識のためのデータ増強に不可欠である。
論文 参考訳(メタデータ) (2021-10-15T17:18:02Z) - Pathological voice adaptation with autoencoder-based voice conversion [15.687800631199616]
音源として健全な音声を使用する代わりに、既存の病的音声サンプルを新しい話者の音声特性にカスタマイズする。
この手法は,典型的な音声を病的音声に変換する際に通常持つ評価問題を緩和する。
論文 参考訳(メタデータ) (2021-06-15T20:38:10Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。