論文の概要: FastVC: Fast Voice Conversion with non-parallel data
- arxiv url: http://arxiv.org/abs/2010.04185v1
- Date: Thu, 8 Oct 2020 18:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 13:16:38.901445
- Title: FastVC: Fast Voice Conversion with non-parallel data
- Title(参考訳): FastVC:非並列データによる高速音声変換
- Authors: Oriol Barbany Mayor and Milos Cernak
- Abstract要約: 本稿では、高速音声変換(VC)のためのエンドツーエンドモデルであるFastVCを紹介する。
FastVCは、非並列データでトレーニングされた条件付きAutoEncoder(AE)に基づいており、アノテーションは一切必要としない。
提案されたモデルの単純な構造にもかかわらず、自然性の観点から見ると、VC Challenge 2020の言語横断タスクのベースラインを上回っている。
- 参考スコア(独自算出の注目度): 13.12834490248018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces FastVC, an end-to-end model for fast Voice Conversion
(VC). The proposed model can convert speech of arbitrary length from multiple
source speakers to multiple target speakers. FastVC is based on a conditional
AutoEncoder (AE) trained on non-parallel data and requires no annotations at
all. This model's latent representation is shown to be speaker-independent and
similar to phonemes, which is a desirable feature for VC systems. While the
current VC systems primarily focus on achieving the highest overall speech
quality, this paper tries to balance the development concerning resources
needed to run the systems. Despite the simple structure of the proposed model,
it outperforms the VC Challenge 2020 baselines on the cross-lingual task in
terms of naturalness.
- Abstract(参考訳): 本稿では,高速音声変換(VC)のためのエンドツーエンドモデルであるFastVCを紹介する。
提案するモデルは、任意の長さの音声を複数の音源話者から複数のターゲット話者に変換できる。
FastVCは、非並列データでトレーニングされた条件付きAutoEncoder(AE)に基づいており、アノテーションは一切必要としない。
このモデルの潜在表現は話者独立であり、VCシステムにとって望ましい特徴である音素に似ている。
現在のVCシステムは主に、音声品質の最高水準を達成することに焦点を当てているが、本論文は、システムを実行するために必要なリソースに関する開発のバランスを保とうとしている。
提案モデルの単純な構造にもかかわらず、自然性の観点からは、vc challenge 2020の言語横断タスクのベースラインを上回っている。
関連論文リスト
- Takin-VC: Zero-shot Voice Conversion via Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling [14.98368067290024]
Takin-VCは、新しいゼロショットVCフレームワークである。
実験結果から,Takin-VC法は最先端のゼロショットVCシステムを上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using
Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation [19.807274303199755]
本稿では,ピッチシフトとVC技術を組み合わせた新しいデータ拡張手法を提案する。
ピッチシフトデータ拡張は様々なピッチダイナミクスのカバレッジを可能にするため、VCモデルとTSモデルのトレーニングを大幅に安定化させる。
提案手法を用いたFastSpeech 2 ベースの感情的 TTS システムでは,従来の方法に比べて自然性や感情的類似性が向上した。
論文 参考訳(メタデータ) (2022-04-21T11:03:37Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Assem-VC: Realistic Voice Conversion by Assembling Modern Speech
Synthesis Techniques [3.3946853660795893]
本稿では,非並列音声変換システムAssem-VCを提案する。
本稿では、VCにおけるGTA微調整についても紹介し、出力の品質と話者類似性を大幅に改善する。
論文 参考訳(メタデータ) (2021-04-02T08:18:05Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。