論文の概要: Non-autoregressive sequence-to-sequence voice conversion
- arxiv url: http://arxiv.org/abs/2104.06793v1
- Date: Wed, 14 Apr 2021 11:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:09:34.903203
- Title: Non-autoregressive sequence-to-sequence voice conversion
- Title(参考訳): non-autoregressive sequence-to-sequence voice conversion
- Authors: Tomoki Hayashi, Wen-Chin Huang, Kazuhiro Kobayashi, Tomoki Toda
- Abstract要約: 本稿では,非自己回帰シーケンストシーケンス(nar-s2s)モデルに基づく新しい音声変換法を提案する。
我々はTransformerの代わりにConvolution-augmented Transformer(Conformer)を導入し、入力シーケンスからローカルとグローバルの両方のコンテキスト情報をキャプチャできるようにする。
- 参考スコア(独自算出の注目度): 47.521186595305984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel voice conversion (VC) method based on
non-autoregressive sequence-to-sequence (NAR-S2S) models. Inspired by the great
success of NAR-S2S models such as FastSpeech in text-to-speech (TTS), we extend
the FastSpeech2 model for the VC problem. We introduce the
convolution-augmented Transformer (Conformer) instead of the Transformer,
making it possible to capture both local and global context information from
the input sequence. Furthermore, we extend variance predictors to variance
converters to explicitly convert the source speaker's prosody components such
as pitch and energy into the target speaker. The experimental evaluation with
the Japanese speaker dataset, which consists of male and female speakers of
1,000 utterances, demonstrates that the proposed model enables us to perform
more stable, faster, and better conversion than autoregressive S2S (AR-S2S)
models such as Tacotron2 and Transformer.
- Abstract(参考訳): 本稿では,非自己回帰シーケンストシーケンス(nar-s2s)モデルに基づく新しい音声変換法を提案する。
テキスト音声(TTS)におけるFastSpeechのようなNAR-S2Sモデルの成功に触発されて,VC問題に対するFastSpeech2モデルを拡張した。
我々はTransformerの代わりにConvolution-augmented Transformer(Conformer)を導入し、入力シーケンスからローカルとグローバルの両方のコンテキスト情報をキャプチャできるようにする。
さらに,分散予測器を分散変換器に拡張し,ピッチやエネルギーといった音源話者の韻律成分を対象話者に明示的に変換する。
日本語話者データセットを用いた実験結果から,Tacotron2 や Transformer などの自己回帰型 S2S (AR-S2S) モデルよりも, より安定的で, より高速で, 変換性に優れたモデルであることが示唆された。
関連論文リスト
- DASpeech: Directed Acyclic Transformer for Fast and High-quality
Speech-to-Speech Translation [36.126810842258706]
直接音声音声変換(S2ST)は、1つのモデルを用いて、ある言語から別の言語に音声を翻訳する。
言語的および音響的多様性が存在するため、ターゲット音声は複雑な多モーダル分布に従う。
高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:39:36Z) - Structured State Space Decoder for Speech Recognition and Synthesis [9.354721572095272]
構造化状態空間モデル(S4)が最近提案され、様々な時系列モデリングタスクに対して有望な結果が得られた。
本研究では,S4 を ASR およびテキスト音声タスクのデコーダとして適用し,トランスフォーマーデコーダと比較した。
ASR タスクでは,提案モデルが 1.88%/4.25% の競合単語誤り率 (WER) を達成することを示す。
論文 参考訳(メタデータ) (2022-10-31T06:54:23Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - The NU Voice Conversion System for the Voice Conversion Challenge 2020:
On the Effectiveness of Sequence-to-sequence Models and Autoregressive Neural
Vocoders [42.636504426142906]
本稿では,名古屋大学におけるVoice Conversion Challenge 2020(VCC 2020)のための音声変換システムについて紹介する。
本稿では,最近のVCにおける2つの重要な技術,Sequence-to-Sequence(seq2seq)モデルとAutoregressive(AR)ニューラルボコーダの有効性について検討する。
論文 参考訳(メタデータ) (2020-10-09T09:19:37Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。