論文の概要: Baseline System of Voice Conversion Challenge 2020 with Cyclic
Variational Autoencoder and Parallel WaveGAN
- arxiv url: http://arxiv.org/abs/2010.04429v1
- Date: Fri, 9 Oct 2020 08:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:18:19.108170
- Title: Baseline System of Voice Conversion Challenge 2020 with Cyclic
Variational Autoencoder and Parallel WaveGAN
- Title(参考訳): 周期変動オートエンコーダと並列ウェーブガンを用いた音声変換チャレンジ2020のベースラインシステム
- Authors: Patrick Lumban Tobing, Yi-Chiao Wu, Tomoki Toda
- Abstract要約: 本稿では,CycleVAE(CycleVAE)とParallel WaveGAN(PWG)を併用したVoice Conversion Challenge(VCC)2020のベースラインシステムについて述べる。
VCC 2020の結果、CycleVAEPWGベースラインは、1)自然度が2.87、スピーカー類似度が75.37%、2)MOSが2.56、Simが56.46%である。
- 参考スコア(独自算出の注目度): 38.21087722927386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a description of the baseline system of Voice
Conversion Challenge (VCC) 2020 with a cyclic variational autoencoder
(CycleVAE) and Parallel WaveGAN (PWG), i.e., CycleVAEPWG. CycleVAE is a
nonparallel VAE-based voice conversion that utilizes converted acoustic
features to consider cyclically reconstructed spectra during optimization. On
the other hand, PWG is a non-autoregressive neural vocoder that is based on a
generative adversarial network for a high-quality and fast waveform generator.
In practice, the CycleVAEPWG system can be straightforwardly developed with the
VCC 2020 dataset using a unified model for both Task 1 (intralingual) and Task
2 (cross-lingual), where our open-source implementation is available at
https://github.com/bigpon/vcc20_baseline_cyclevae. The results of VCC 2020 have
demonstrated that the CycleVAEPWG baseline achieves the following: 1) a mean
opinion score (MOS) of 2.87 in naturalness and a speaker similarity percentage
(Sim) of 75.37% for Task 1, and 2) a MOS of 2.56 and a Sim of 56.46% for Task
2, showing an approximately or nearly average score for naturalness and an
above average score for speaker similarity.
- Abstract(参考訳): 本稿では,循環型変分オートエンコーダ(cyclevae)と並列ウェーブガン(pwg)、すなわちcyclevaepwgを用いた音声変換チャレンジ(vcc)2020のベースラインシステムについて述べる。
cyclevaeはノンパラレルvaeに基づく音声変換であり、変換された音響特徴を利用して最適化中に周期的に再構成されたスペクトルを検討する。
一方、PWGは非自己回帰型ニューラルボコーダであり、高品質で高速な波形生成のための生成対向ネットワークに基づいている。
実際にcyclevaepwgシステムは、タスク1(イントラリンガル)とタスク2(クロスリンガル)の両方の統一モデルを使用して、vcc 2020データセットで簡単に開発することができます。
VCC 2020の結果は、CycleVAEPWGベースラインが以下のことを証明している。
1)自然度の平均世論スコア(MOS)は2.87で、話者類似率(Sim)は1タスクで75.37%である。
2)mosが2.56、simが56.46%、タスク2が56.46%、自然性がほぼ平均、話者の類似度が平均以上である。
関連論文リスト
- CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文 参考訳(メタデータ) (2022-03-28T23:53:34Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - The NU Voice Conversion System for the Voice Conversion Challenge 2020:
On the Effectiveness of Sequence-to-sequence Models and Autoregressive Neural
Vocoders [42.636504426142906]
本稿では,名古屋大学におけるVoice Conversion Challenge 2020(VCC 2020)のための音声変換システムについて紹介する。
本稿では,最近のVCにおける2つの重要な技術,Sequence-to-Sequence(seq2seq)モデルとAutoregressive(AR)ニューラルボコーダの有効性について検討する。
論文 参考訳(メタデータ) (2020-10-09T09:19:37Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Acoustic Scene Classification Using Bilinear Pooling on Time-liked and
Frequency-liked Convolution Neural Network [4.131608702779222]
本稿では、高調波とパーカッシブ音源分離(HPSS)を用いて、音声を高調波とパーカッシブ音源に分割する方法について検討する。
これら2つのCNNから抽出された深い特徴は、双線形プールによって結合される。
このモデルはDCASE 2019サブタスク1aデータセットで評価されており、開発データセットで平均65%のスコアを得ている。
論文 参考訳(メタデータ) (2020-02-14T04:06:32Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。