論文の概要: Make-A-Voice: Unified Voice Synthesis With Discrete Representation
- arxiv url: http://arxiv.org/abs/2305.19269v1
- Date: Tue, 30 May 2023 17:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:27:42.916550
- Title: Make-A-Voice: Unified Voice Synthesis With Discrete Representation
- Title(参考訳): Make-A-Voice:離散表現を用いた統一音声合成
- Authors: Rongjie Huang, Chunlei Zhang, Yongqi Wang, Dongchao Yang, Luping Liu,
Zhenhui Ye, Ziyue Jiang, Chao Weng, Zhou Zhao, Dong Yu
- Abstract要約: Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
- 参考スコア(独自算出の注目度): 77.3998611565557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various applications of voice synthesis have been developed independently
despite the fact that they generate "voice" as output in common. In addition,
the majority of voice synthesis models currently rely on annotated audio data,
but it is crucial to scale them to self-supervised datasets in order to
effectively capture the wide range of acoustic variations present in human
voice, including speaker identity, emotion, and prosody. In this work, we
propose Make-A-Voice, a unified framework for synthesizing and manipulating
voice signals from discrete representations. Make-A-Voice leverages a
"coarse-to-fine" approach to model the human voice, which involves three
stages: 1) semantic stage: model high-level transformation between linguistic
content and self-supervised semantic tokens, 2) acoustic stage: introduce
varying control signals as acoustic conditions for semantic-to-acoustic
modeling, and 3) generation stage: synthesize high-fidelity waveforms from
acoustic tokens. Make-A-Voice offers notable benefits as a unified voice
synthesis framework: 1) Data scalability: the major backbone (i.e., acoustic
and generation stage) does not require any annotations, and thus the training
data could be scaled up. 2) Controllability and conditioning flexibility: we
investigate different conditioning mechanisms and effectively handle three
voice synthesis applications, including text-to-speech (TTS), voice conversion
(VC), and singing voice synthesis (SVS) by re-synthesizing the discrete voice
representations with prompt guidance. Experimental results demonstrate that
Make-A-Voice exhibits superior audio quality and style similarity compared with
competitive baseline models. Audio samples are available at
https://Make-A-Voice.github.io
- Abstract(参考訳): 音声合成の様々な応用は、共通して「声」を生成するという事実にもかかわらず、独立して開発されてきた。
加えて、音声合成モデルの大部分は、現在注釈付き音声データに依存しているが、話者のアイデンティティ、感情、韻律など、人間の声に含まれる幅広い音響変化を効果的に捉えるために、自己教師付きデータセットに拡張することが重要である。
本研究では,個別表現から音声信号を合成・操作するための統合フレームワークであるMake-A-Voiceを提案する。
Make-A-Voiceは、人間の声をモデル化するために「粗い」アプローチを活用している。
1)意味段階:言語内容と自己教師付き意味トークン間のハイレベル変換のモデル化
2)音響段階:意味-音響モデルのための音響条件として様々な制御信号を導入し、
3) 生成段階: 音響トークンから高忠実度波形を合成する。
Make-A-Voiceは、統合音声合成フレームワークとして注目すべき利点を提供する。
1) データのスケーラビリティ: 主要なバックボーン(すなわちアコースティックおよびジェネレーションステージ)はアノテーションを必要としないため、トレーニングデータをスケールアップすることができる。
2) 制御可能性と条件付けの柔軟性: 異なる条件付け機構を調査し,テキスト音声合成 (tts), 音声変換 (vc), 歌声合成 (svs) を含む3つの音声合成アプリケーションを, 迅速誘導により再合成することにより効果的に処理する。
実験の結果, 基本モデルと比較して, 音声の質やスタイルに優れた類似性を示すことがわかった。
オーディオサンプルはhttps://Make-A-Voice.github.ioで入手できる。
関連論文リスト
- Articulatory Phonetics Informed Controllable Expressive Speech Synthesis [14.157690391680745]
調音音声のレンズによる表現音声合成について検討する。
我々はGTR-Voiceという高品質な音声データセットを記録し、20の漢文をプロの音声アクターが記述する。
フレームワークとGTRアノテーションを自動分類およびリスニングテストにより検証し、2つの微調整表現型TSモデル上で正確な制御性を示す。
論文 参考訳(メタデータ) (2024-06-15T05:37:04Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Enhancing audio quality for expressive Neural Text-to-Speech [8.199224915764672]
本稿では,高表現率音声の信号品質を向上させるために,追加データを用いることなく活用できる一連の手法を提案する。
その結果,これらの手法を組み合わせることで,表現力のある有名人声のMUSHRAスコアにおいて,ベースラインシステムと録音との知覚自然さのギャップを39%削減できることが判明した。
論文 参考訳(メタデータ) (2021-08-13T14:32:39Z) - Audiovisual Speech Synthesis using Tacotron2 [14.206988023567828]
3次元顔モデルのための2つの音声視覚音声合成システムを提案し,比較する。
AVTacotron2は、Tacotron2アーキテクチャに基づくエンドツーエンドの音声合成システムである。
第2の音声視覚音声合成システムはモジュールであり、従来のタコトロン2を用いて音声をテキストから合成する。
論文 参考訳(メタデータ) (2020-08-03T02:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。