論文の概要: Pathological voice adaptation with autoencoder-based voice conversion
- arxiv url: http://arxiv.org/abs/2106.08427v1
- Date: Tue, 15 Jun 2021 20:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 10:09:03.452982
- Title: Pathological voice adaptation with autoencoder-based voice conversion
- Title(参考訳): オートエンコーダに基づく音声変換による病的音声適応
- Authors: Marc Illa, Bence Mark Halpern, Rob van Son, Laureano Moro-Velazquez,
Odette Scharenborg
- Abstract要約: 音源として健全な音声を使用する代わりに、既存の病的音声サンプルを新しい話者の音声特性にカスタマイズする。
この手法は,典型的な音声を病的音声に変換する際に通常持つ評価問題を緩和する。
- 参考スコア(独自算出の注目度): 15.687800631199616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new approach to pathological speech synthesis.
Instead of using healthy speech as a source, we customise an existing
pathological speech sample to a new speaker's voice characteristics. This
approach alleviates the evaluation problem one normally has when converting
typical speech to pathological speech, as in our approach, the voice conversion
(VC) model does not need to be optimised for speech degradation but only for
the speaker change. This change in the optimisation ensures that any
degradation found in naturalness is due to the conversion process and not due
to the model exaggerating characteristics of a speech pathology. To show a
proof of concept of this method, we convert dysarthric speech using the
UASpeech database and an autoencoder-based VC technique. Subjective evaluation
results show reasonable naturalness for high intelligibility dysarthric
speakers, though lower intelligibility seems to introduce a marginal
degradation in naturalness scores for mid and low intelligibility speakers
compared to ground truth. Conversion of speaker characteristics for low and
high intelligibility speakers is successful, but not for mid. Whether the
differences in the results for the different intelligibility levels is due to
the intelligibility levels or due to the speakers needs to be further
investigated.
- Abstract(参考訳): 本稿では,病的音声合成への新しいアプローチを提案する。
音源として健全な音声を使用する代わりに、既存の病的音声サンプルを新しい話者の音声特性にカスタマイズする。
提案手法では,一般的な音声を病的音声に変換する場合,音声変換(VC)モデルは音声の劣化に最適化される必要はなく,話者の変化にのみ適用される。
この最適化の変更により、自然界の劣化は変換過程によるものであって、言語病理の特徴を誇張するモデルによるものではないことが保証される。
本手法のコンセプトを示すために,uaspeechデータベースとオートエンコーダを用いたvc技術を用いて,dysarthric speechを変換する。
主観評価の結果, 難聴者に対して妥当な自然性を示すが, 難聴者では中低中低の自然性スコアが, 地上の真理と比較して低下する傾向がみられた。
低・高信頼度話者に対する話者特性の変換は成功したが、中程度ではない。
異なる知性レベルに対する結果の相違が、知性レベルに起因するか、あるいは話者によるものであるかは、さらに検討する必要がある。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings [47.2515056854372]
音声合成においては、人間の声に含まれる豊かな感情と韻律変化のモデリングが自然音声の合成に不可欠である。
本稿では,従来の組込み方式として単一クラス中心ではなく,複数クラス中心を用いた話者分類訓練を行う新しい組込みネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T06:54:24Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Towards Identity Preserving Normal to Dysarthric Voice Conversion [37.648612382457756]
本稿では, 話者識別を保ちながら, 正常音声を変形音声に変換する枠組みを提案する。
本研究は,(1)患者のストレスを緩和する臨床的意思決定プロセス,(2)顎関節症音声認識のためのデータ増強に不可欠である。
論文 参考訳(メタデータ) (2021-10-15T17:18:02Z) - Toward Degradation-Robust Voice Conversion [94.60503904292916]
あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。
話者の清潔な発話を収集することは困難であり、通常はノイズや残響によって劣化する。
本稿では,任意の音声変換の頑健性の劣化に関する総合的研究を報告する。
論文 参考訳(メタデータ) (2021-10-14T17:00:34Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。
音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。
その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文 参考訳(メタデータ) (2020-05-18T14:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。