論文の概要: HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer
- arxiv url: http://arxiv.org/abs/2307.16171v1
- Date: Sun, 30 Jul 2023 08:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:15:59.536332
- Title: HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer
- Title(参考訳): HierVST:階層型適応ゼロショット音声スタイル転送
- Authors: Sang-Hoon Lee, Ha-Yeong Choi, Hyung-Seok Oh, Seong-Whan Lee
- Abstract要約: 階層型適応型ゼロショットVSTモデルであるHierVSTを提案する。
テキストの書き起こしがなければ、モデルのトレーニングには音声データセットのみを使用します。
階層的な適応構造により、モデルは新しい音声スタイルに適応し、音声を段階的に変換することができる。
- 参考スコア(独自算出の注目度): 25.966328901566815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite rapid progress in the voice style transfer (VST) field, recent
zero-shot VST systems still lack the ability to transfer the voice style of a
novel speaker. In this paper, we present HierVST, a hierarchical adaptive
end-to-end zero-shot VST model. Without any text transcripts, we only use the
speech dataset to train the model by utilizing hierarchical variational
inference and self-supervised representation. In addition, we adopt a
hierarchical adaptive generator that generates the pitch representation and
waveform audio sequentially. Moreover, we utilize unconditional generation to
improve the speaker-relative acoustic capacity in the acoustic representation.
With a hierarchical adaptive structure, the model can adapt to a novel voice
style and convert speech progressively. The experimental results demonstrate
that our method outperforms other VST models in zero-shot VST scenarios. Audio
samples are available at \url{https://hiervst.github.io/}.
- Abstract(参考訳): 音声スタイル転送(VST)分野の急速な進歩にもかかわらず、最近のゼロショットVSTシステムは、新しい話者の音声スタイルを転送する能力に欠けていた。
本稿では,階層型適応型ゼロショットVSTモデルであるHierVSTを提案する。
テキストの書き起こしがなければ、階層的変動推論と自己教師型表現を利用してモデルを訓練するためにのみ音声データセットを使用する。
さらに,ピッチ表現と波形音声を逐次生成する階層型適応生成器を採用する。
さらに,無条件生成を用いて音響表現における話者関係音響能力を向上させる。
階層的な適応構造により、モデルは新しい音声スタイルに適応し、音声を段階的に変換することができる。
実験により,本手法はゼロショットVSTシナリオにおいて,他のVSTモデルよりも優れていることが示された。
オーディオサンプルは \url{https://hiervst.github.io/} で入手できる。
関連論文リスト
- Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation [41.98697872087318]
2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
論文 参考訳(メタデータ) (2023-11-08T14:02:53Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。