論文の概要: Many-to-Many Voice Conversion using Conditional Cycle-Consistent
Adversarial Networks
- arxiv url: http://arxiv.org/abs/2002.06328v1
- Date: Sat, 15 Feb 2020 06:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 23:18:38.333894
- Title: Many-to-Many Voice Conversion using Conditional Cycle-Consistent
Adversarial Networks
- Title(参考訳): 条件付き周期整合adversarial networkを用いた多対多音声変換
- Authors: Shindong Lee, BongGu Ko, Keonnyeong Lee, In-Chul Yoo, and Dongsuk Yook
- Abstract要約: 我々は、CycleGANを話者にネットワークを条件付けすることで拡張する。
提案手法は,GAN(Generative Adversarial Network)を用いて複数話者間で多対多の音声変換を行うことができる。
提案手法は,各話者に対して複数のCycleGANを構築する場合と比較して,変換された音声の音質を損なうことなく,計算コストと空間コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 3.1317409221921144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice conversion (VC) refers to transforming the speaker characteristics of
an utterance without altering its linguistic contents. Many works on voice
conversion require to have parallel training data that is highly expensive to
acquire. Recently, the cycle-consistent adversarial network (CycleGAN), which
does not require parallel training data, has been applied to voice conversion,
showing the state-of-the-art performance. The CycleGAN based voice conversion,
however, can be used only for a pair of speakers, i.e., one-to-one voice
conversion between two speakers. In this paper, we extend the CycleGAN by
conditioning the network on speakers. As a result, the proposed method can
perform many-to-many voice conversion among multiple speakers using a single
generative adversarial network (GAN). Compared to building multiple CycleGANs
for each pair of speakers, the proposed method reduces the computational and
spatial cost significantly without compromising the sound quality of the
converted voice. Experimental results using the VCC2018 corpus confirm the
efficiency of the proposed method.
- Abstract(参考訳): 音声変換(vc)とは、言語内容を変更することなく発話の話者特性を変換することを指す。
音声変換に関する多くの研究は、取得に高コストの並列トレーニングデータを必要とする。
近年,並列学習データを必要としない周期整合逆ネットワーク(cyclegan)が音声変換に応用され,最先端の性能を示している。
しかし、CycleGANベースの音声変換は、1対の話者、すなわち2つの話者間の1対1の音声変換にのみ使用できる。
本稿では,CycleGANを話者にネットワークを調和させることにより拡張する。
提案手法は,複数の話者間で,GAN(Generative Adversarial Network)を用いて多対多の音声変換を行う。
提案手法は,各話者に対して複数のCycleGANを構築する場合と比較して,変換音声の音質を損なうことなく,計算コストと空間コストを大幅に削減する。
VCC2018コーパスを用いた実験により,提案手法の有効性が確認された。
関連論文リスト
- Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement [17.645026729525462]
混合音声信号から対象話者の音声を抽出するトランスフォーマーに基づくエンドツーエンドモデルを提案する。
実験の結果,セパレータのバックボーンにデュアルパストランスフォーマーを用いることで,CNNのベースラインを3.12ドルdBポイント向上できることがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:11:12Z) - Who is Authentic Speaker [4.822108779108675]
音声変換は、操作された音声が偽りの目的で使用される場合、潜在的な社会的問題を引き起こす可能性がある。
音源の音響特性が大きく変化しているため、変換された音声から実際の話者が誰であるかを見つけることは大きな課題である。
本研究は, 話者の声が異なるターゲット音声に変換された場合でも, 音源話者からの特定の情報が持続するという仮定を用いて行った。
論文 参考訳(メタデータ) (2024-04-30T23:41:00Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with
CycleGAN [81.79070894458322]
言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声のように聞こえるようにすることを目的としている。
従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。
本稿では,F0モデリングにおける連続ウェーブレット変換(CWT)の分解手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T07:29:55Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。