論文の概要: Toward Degradation-Robust Voice Conversion
- arxiv url: http://arxiv.org/abs/2110.07537v1
- Date: Thu, 14 Oct 2021 17:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 15:25:56.905483
- Title: Toward Degradation-Robust Voice Conversion
- Title(参考訳): 劣化ロバスト音声変換に向けて
- Authors: Chien-yu Huang, Kai-Wei Chang, Hung-yi Lee
- Abstract要約: あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。
話者の清潔な発話を収集することは困難であり、通常はノイズや残響によって劣化する。
本稿では,任意の音声変換の頑健性の劣化に関する総合的研究を報告する。
- 参考スコア(独自算出の注目度): 94.60503904292916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Any-to-any voice conversion technologies convert the vocal timbre of an
utterance to any speaker even unseen during training. Although there have been
several state-of-the-art any-to-any voice conversion models, they were all
based on clean utterances to convert successfully. However, in real-world
scenarios, it is difficult to collect clean utterances of a speaker, and they
are usually degraded by noises or reverberations. It thus becomes highly
desired to understand how these degradations affect voice conversion and build
a degradation-robust model. We report in this paper the first comprehensive
study on the degradation robustness of any-to-any voice conversion. We show
that the performance of state-of-the-art models nowadays was severely hampered
given degraded utterances. To this end, we then propose speech enhancement
concatenation and denoising training to improve the robustness. In addition to
common degradations, we also consider adversarial noises, which alter the model
output significantly yet are human-imperceptible. It was shown that both
concatenations with off-the-shelf speech enhancement models and denoising
training on voice conversion models could improve the robustness, while each of
them had pros and cons.
- Abstract(参考訳): あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。
最先端の音声変換モデルがいくつか存在するが、すべてはクリーンな発話に基づいて変換に成功した。
しかし、現実のシナリオでは、話者のクリーンな発話を収集することは困難であり、通常はノイズや残響によって劣化する。
したがって、これらの劣化が音声変換にどのように影響するかを理解し、劣化ロバストモデルを構築することが強く望まれる。
本稿では,任意の音声変換の劣化頑健性に関する総合的研究を報告する。
近年の最先端モデルの性能は, 発話の劣化により著しく損なわれた。
そこで我々は,頑健さを向上させるために,音声強調結合と聴覚訓練を提案する。
また, 一般的な劣化に加えて, モデル出力を著しく変化させる逆方向雑音も人間の知覚に及ばない。
既製音声強調モデルとの結合と,音声変換モデルの発声訓練は,それぞれが長所と短所を有しながらロバスト性を改善することができた。
関連論文リスト
- Zero-shot Voice Conversion with Diffusion Transformers [0.0]
ゼロショット音声変換は、参照音声の音色を未知の話者から一致させるために、音源音声の発話を変換することを目的としている。
従来のアプローチでは、音色漏れ、音色表現の不十分、トレーニングと推論のミスマッチに悩まされていた。
トレーニング中に外部の音色シフタを導入することで,これらの問題に対処する新しいフレームワークであるSeed-VCを提案する。
論文 参考訳(メタデータ) (2024-11-15T04:43:44Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。
音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。
その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文 参考訳(メタデータ) (2020-05-18T14:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。