論文の概要: The NU Voice Conversion System for the Voice Conversion Challenge 2020:
On the Effectiveness of Sequence-to-sequence Models and Autoregressive Neural
Vocoders
- arxiv url: http://arxiv.org/abs/2010.04446v1
- Date: Fri, 9 Oct 2020 09:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:17:54.458851
- Title: The NU Voice Conversion System for the Voice Conversion Challenge 2020:
On the Effectiveness of Sequence-to-sequence Models and Autoregressive Neural
Vocoders
- Title(参考訳): 音声変換チャレンジ2020のためのnu音声変換システム : シーケンス-シーケンスモデルと自己回帰型ニューラルボコーダの有効性について
- Authors: Wen-Chin Huang, Patrick Lumban Tobing, Yi-Chiao Wu, Kazuhiro
Kobayashi, Tomoki Toda
- Abstract要約: 本稿では,名古屋大学におけるVoice Conversion Challenge 2020(VCC 2020)のための音声変換システムについて紹介する。
本稿では,最近のVCにおける2つの重要な技術,Sequence-to-Sequence(seq2seq)モデルとAutoregressive(AR)ニューラルボコーダの有効性について検討する。
- 参考スコア(独自算出の注目度): 42.636504426142906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the voice conversion (VC) systems developed at
Nagoya University (NU) for the Voice Conversion Challenge 2020 (VCC2020). We
aim to determine the effectiveness of two recent significant technologies in
VC: sequence-to-sequence (seq2seq) models and autoregressive (AR) neural
vocoders. Two respective systems were developed for the two tasks in the
challenge: for task 1, we adopted the Voice Transformer Network, a
Transformer-based seq2seq VC model, and extended it with synthetic parallel
data to tackle nonparallel data; for task 2, we used the frame-based cyclic
variational autoencoder (CycleVAE) to model the spectral features of a speech
waveform and the AR WaveNet vocoder with additional fine-tuning. By comparing
with the baseline systems, we confirmed that the seq2seq modeling can improve
the conversion similarity and that the use of AR vocoders can improve the
naturalness of the converted speech.
- Abstract(参考訳): 本稿では,名古屋大学におけるVoice Conversion Challenge 2020(VCC2020)のための音声変換システムについて述べる。
本稿では,最近のVCにおける2つの重要な技術,Sequence-to-Sequence(seq2seq)モデルとAutoregressive(AR)ニューラルボコーダの有効性について検討する。
タスク1では、トランスフォーマーベースのseq2seq vcモデルであるvoice transformer networkを採用し、非並列データに取り組むために合成並列データで拡張し、タスク2では、フレームベースのサイクリック変分オートエンコーダ(cyclevae)を使用して、音声波形のスペクトル特性とar wavenet vocoderを、追加の微調整でモデル化した。
ベースラインシステムとの比較により,seq2seqモデリングは変換の類似性を向上させることができ,arボコーダの使用により変換音声の自然性が向上することを確認した。
関連論文リスト
- Non-autoregressive sequence-to-sequence voice conversion [47.521186595305984]
本稿では,非自己回帰シーケンストシーケンス(nar-s2s)モデルに基づく新しい音声変換法を提案する。
我々はTransformerの代わりにConvolution-augmented Transformer(Conformer)を導入し、入力シーケンスからローカルとグローバルの両方のコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2021-04-14T11:53:51Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Baseline System of Voice Conversion Challenge 2020 with Cyclic
Variational Autoencoder and Parallel WaveGAN [38.21087722927386]
本稿では,CycleVAE(CycleVAE)とParallel WaveGAN(PWG)を併用したVoice Conversion Challenge(VCC)2020のベースラインシステムについて述べる。
VCC 2020の結果、CycleVAEPWGベースラインは、1)自然度が2.87、スピーカー類似度が75.37%、2)MOSが2.56、Simが56.46%である。
論文 参考訳(メタデータ) (2020-10-09T08:25:38Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。