論文の概要: The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS
- arxiv url: http://arxiv.org/abs/2010.02434v1
- Date: Tue, 6 Oct 2020 02:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:49:40.257126
- Title: The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS
- Title(参考訳): 音声変換チャレンジ2020のシーケンス・ツー・シーケンスベースライン:カスケードASRとTS
- Authors: Wen-Chin Huang, Tomoki Hayashi, Shinji Watanabe, Tomoki Toda
- Abstract要約: 本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
- 参考スコア(独自算出の注目度): 66.06385966689965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the sequence-to-sequence (seq2seq) baseline system for
the voice conversion challenge (VCC) 2020. We consider a naive approach for
voice conversion (VC), which is to first transcribe the input speech with an
automatic speech recognition (ASR) model, followed using the transcriptions to
generate the voice of the target with a text-to-speech (TTS) model. We revisit
this method under a sequence-to-sequence (seq2seq) framework by utilizing
ESPnet, an open-source end-to-end speech processing toolkit, and the many
well-configured pretrained models provided by the community. Official
evaluation results show that our system comes out top among the participating
systems in terms of conversion similarity, demonstrating the promising ability
of seq2seq models to convert speaker identity. The implementation is made
open-source at: https://github.com/espnet/espnet/tree/master/egs/vcc20.
- Abstract(参考訳): 本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では、まず入力音声を自動音声認識(ASR)モデルで書き起こし、次にテキスト音声合成(TTS)モデルでターゲットの声を生成する方法を提案する。
提案手法は,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetと,コミュニティが提供する多くの事前学習モデルを利用して,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
公式評価の結果,提案システムは変換の類似性という点で上位のシステムであり,Seq2seqモデルが話者識別を変換できる可能性を示している。
https://github.com/espnet/espnet/tree/master/egs/vcc20。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Non-autoregressive sequence-to-sequence voice conversion [47.521186595305984]
本稿では,非自己回帰シーケンストシーケンス(nar-s2s)モデルに基づく新しい音声変換法を提案する。
我々はTransformerの代わりにConvolution-augmented Transformer(Conformer)を導入し、入力シーケンスからローカルとグローバルの両方のコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2021-04-14T11:53:51Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - The NU Voice Conversion System for the Voice Conversion Challenge 2020:
On the Effectiveness of Sequence-to-sequence Models and Autoregressive Neural
Vocoders [42.636504426142906]
本稿では,名古屋大学におけるVoice Conversion Challenge 2020(VCC 2020)のための音声変換システムについて紹介する。
本稿では,最近のVCにおける2つの重要な技術,Sequence-to-Sequence(seq2seq)モデルとAutoregressive(AR)ニューラルボコーダの有効性について検討する。
論文 参考訳(メタデータ) (2020-10-09T09:19:37Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。