論文の概要: StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource
Contexts
- arxiv url: http://arxiv.org/abs/2106.00043v1
- Date: Mon, 31 May 2021 18:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 07:25:39.083516
- Title: StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource
Contexts
- Title(参考訳): StarGAN-ZSVC:低リソース環境におけるゼロショット音声変換を目指して
- Authors: Matthew Baas, Herman Kamper
- Abstract要約: より広い範囲の文脈で有効にするためには、音声変換システムは並列データにアクセスせずに訓練する必要がある。
本稿では,GAN(Generative Adversarial Network)に基づく最新の音声変換モデルを拡張する。
非常に少ないデータで訓練されたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示す。
- 参考スコア(独自算出の注目度): 32.170748231414365
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Voice conversion is the task of converting a spoken utterance from a source
speaker so that it appears to be said by a different target speaker while
retaining the linguistic content of the utterance. Recent advances have led to
major improvements in the quality of voice conversion systems. However, to be
useful in a wider range of contexts, voice conversion systems would need to be
(i) trainable without access to parallel data, (ii) work in a zero-shot setting
where both the source and target speakers are unseen during training, and (iii)
run in real time or faster. Recent techniques fulfil one or two of these
requirements, but not all three. This paper extends recent voice conversion
models based on generative adversarial networks (GANs), to satisfy all three of
these conditions. We specifically extend the recent StarGAN-VC model by
conditioning it on a speaker embedding (from a potentially unseen speaker).
This allows the model to be used in a zero-shot setting, and we therefore call
it StarGAN-ZSVC. We compare StarGAN-ZSVC against other voice conversion
techniques in a low-resource setting using a small 9-minute training set.
Compared to AutoVC -- another recent neural zero-shot approach -- we observe
that StarGAN-ZSVC gives small improvements in the zero-shot setting, showing
that real-time zero-shot voice conversion is possible even for a model trained
on very little data. Further work is required to see whether scaling up
StarGAN-ZSVC will also improve zero-shot voice conversion quality in
high-resource contexts.
- Abstract(参考訳): 音声変換は、発声者の言語的内容を保持しながら、異なる対象話者によって話されているように見えるように、音源話者から発声を変換するタスクである。
近年の進歩により、音声変換システムの品質が大幅に向上した。
しかし、より広い範囲の文脈で有用であるためには、音声変換システムは(i)並列データにアクセスせずに訓練可能であり、(ii)訓練中にソースとターゲット話者の両方が見えないゼロショット環境で動作し、(iii)リアルタイムまたはより高速に実行される必要がある。
最近の技術はこれらの要件の1つか2つを満たすが、3つすべてではない。
本稿では,これら3つの条件をすべて満たすために,gans(generative adversarial network)に基づく最近の音声変換モデルを拡張する。
具体的には、最近のStarGAN-VCモデルを話者埋め込み(潜在的に見えない話者から)に条件付けすることで拡張する。
これにより、モデルはゼロショット設定で使用できるので、StarGAN-ZSVCと呼ぶ。
我々は、stargan-zsvcを低リソース環境での他の音声変換技術と比較し、9分間のトレーニングセットを用いた。
もうひとつのニューラルゼロショットアプローチであるAutoVCと比較して、StarGAN-ZSVCはゼロショット設定に小さな改善を加えており、非常に小さなデータでトレーニングされたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示している。
StarGAN-ZSVCのスケールアップは、高リソースコンテキストにおけるゼロショット音声変換の品質も向上するかどうか、さらなる作業が必要である。
関連論文リスト
- Zero-shot Voice Conversion with Diffusion Transformers [0.0]
ゼロショット音声変換は、参照音声の音色を未知の話者から一致させるために、音源音声の発話を変換することを目的としている。
従来のアプローチでは、音色漏れ、音色表現の不十分、トレーニングと推論のミスマッチに悩まされていた。
トレーニング中に外部の音色シフタを導入することで,これらの問題に対処する新しいフレームワークであるSeed-VCを提案する。
論文 参考訳(メタデータ) (2024-11-15T04:43:44Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation [41.98697872087318]
2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
論文 参考訳(メタデータ) (2023-11-08T14:02:53Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。