論文の概要: NoiseVC: Towards High Quality Zero-Shot Voice Conversion
- arxiv url: http://arxiv.org/abs/2104.06074v1
- Date: Tue, 13 Apr 2021 10:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:15:04.023145
- Title: NoiseVC: Towards High Quality Zero-Shot Voice Conversion
- Title(参考訳): NoiseVC: 高品質ゼロショット音声変換を目指して
- Authors: Shijun Wang and Damian Borth
- Abstract要約: NoiseVC は、VQ と Contrastive Predictive Coding (CPC) に基づいてコンテンツを切り離すことができるアプローチである。
我々は,いくつかの実験を行い,ノイズvcは品質を犠牲にして,強い絡み合い能力を持つことを実証する。
- 参考スコア(独自算出の注目度): 2.3224617218247126
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Voice conversion (VC) is a task that transforms voice from target audio to
source without losing linguistic contents, it is challenging especially when
source and target speakers are unseen during training (zero-shot VC). Previous
approaches require a pre-trained model or linguistic data to do the zero-shot
conversion. Meanwhile, VC models with Vector Quantization (VQ) or Instance
Normalization (IN) are able to disentangle contents from audios and achieve
successful conversions. However, disentanglement in these models highly relies
on heavily constrained bottleneck layers, thus, the sound quality is
drastically sacrificed. In this paper, we propose NoiseVC, an approach that can
disentangle contents based on VQ and Contrastive Predictive Coding (CPC).
Additionally, Noise Augmentation is performed to further enhance
disentanglement capability. We conduct several experiments and demonstrate that
NoiseVC has a strong disentanglement ability with a small sacrifice of quality.
- Abstract(参考訳): 音声変換(Voice conversion, VC)は, 言語的内容を失うことなく音声を対象の音声からソースに変換するタスクであり, 特に訓練中に音源とターゲット話者が見えない場合(ゼロショットVC)は困難である。
以前のアプローチではゼロショット変換を行うには事前訓練されたモデルや言語データが必要である。
一方、vector quantization (vq) やインスタンス正規化 (in) を持つvcモデルは、コンテンツをオーディオから切り離し、うまく変換することができる。
しかし、これらのモデルの絡み合いは、非常に制約されたボトルネック層に依存するため、音質は大幅に犠牲となる。
本稿では,VQとコントラスト予測符号化(Contrastive Predictive Coding, CPC)に基づいてコンテンツを切り離す手法であるNossVCを提案する。
さらに、遠絡能力を高めるためにノイズ増強を行う。
我々は,いくつかの実験を行い,ノイズvcは品質を犠牲にして,強い絡み合い能力を持つことを実証する。
関連論文リスト
- Takin-VC: Zero-shot Voice Conversion via Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling [14.98368067290024]
Takin-VCは、新しいゼロショットVCフレームワークである。
実験結果から,Takin-VC法は最先端のゼロショットVCシステムを上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Toward Degradation-Robust Voice Conversion [94.60503904292916]
あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。
話者の清潔な発話を収集することは困難であり、通常はノイズや残響によって劣化する。
本稿では,任意の音声変換の頑健性の劣化に関する総合的研究を報告する。
論文 参考訳(メタデータ) (2021-10-14T17:00:34Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource
Contexts [32.170748231414365]
より広い範囲の文脈で有効にするためには、音声変換システムは並列データにアクセスせずに訓練する必要がある。
本稿では,GAN(Generative Adversarial Network)に基づく最新の音声変換モデルを拡張する。
非常に少ないデータで訓練されたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示す。
論文 参考訳(メタデータ) (2021-05-31T18:21:28Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。