論文の概要: StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion
- arxiv url: http://arxiv.org/abs/2107.10394v2
- Date: Fri, 23 Jul 2021 01:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 11:01:38.216087
- Title: StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion
- Title(参考訳): starganv2-vc:自然音声変換のための多様な教師なし非並列フレームワーク
- Authors: Yinghao Aaron Li, Ali Zare, Nima Mesgarani
- Abstract要約: 本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
- 参考スコア(独自算出の注目度): 19.74933410443264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present an unsupervised non-parallel many-to-many voice conversion (VC)
method using a generative adversarial network (GAN) called StarGAN v2. Using a
combination of adversarial source classifier loss and perceptual loss, our
model significantly outperforms previous VC models. Although our model is
trained only with 20 English speakers, it generalizes to a variety of voice
conversion tasks, such as any-to-many, cross-lingual, and singing conversion.
Using a style encoder, our framework can also convert plain reading speech into
stylistic speech, such as emotional and falsetto speech. Subjective and
objective evaluation experiments on a non-parallel many-to-many voice
conversion task revealed that our model produces natural sounding voices, close
to the sound quality of state-of-the-art text-to-speech (TTS) based voice
conversion methods without the need for text labels. Moreover, our model is
completely convolutional and with a faster-than-real-time vocoder such as
Parallel WaveGAN can perform real-time voice conversion.
- Abstract(参考訳): 本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた非並列多人数音声変換手法を提案する。
逆方向のソース分類器の損失と知覚的損失の組み合わせにより、我々のモデルは従来のVCモデルよりも大幅に優れていた。
我々のモデルは、20人の英語話者でしか訓練されていないが、任意の対多、多言語、歌唱変換など、様々な音声変換タスクに一般化されている。
また, スタイルエンコーダを用いて, 平易な読み上げ音声を, 情緒的, 虚偽的音声などのスタイリスティックな音声に変換する。
非並列多言語音声変換タスクの主観的および客観的評価実験により,テキストラベルを必要とせずに,TTSに基づく音声変換手法の音質に近い自然な音声を生成できることが明らかになった。
さらに,本モデルは完全に畳み込み型であり,Parallel WaveGANのような高速なボコーダでリアルタイム音声変換を行うことができる。
関連論文リスト
- Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and
Textually Described Voices [28.998590651956153]
そこで本研究では, 音声変換, 言語間変換, 楽器変換, テキスト・ツー・ボイス変換の4つの非標準的応用について検討する。
kNN-VCは,声質変換や言語間変換において高い性能を維持していることがわかった。
楽器とテキスト・ツー・ボイス・コンバージョン・タスクでは、より複雑な結果が得られる。
論文 参考訳(メタデータ) (2023-10-12T08:00:25Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - NVC-Net: End-to-End Adversarial Voice Conversion [7.14505983271756]
NVC-Netは、任意の長さの生音声波形上で直接音声変換を行うエンド・ツー・エンドの敵対ネットワークである。
我々のモデルはNVIDIA V100 GPU上で3600kHz以上の速度でサンプルを生成することができ、最先端の手法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2021-06-02T07:19:58Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。