論文の概要: On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models
- arxiv url: http://arxiv.org/abs/2402.12423v1
- Date: Mon, 19 Feb 2024 16:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:34:54.036830
- Title: On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models
- Title(参考訳): 拡散に基づくテキスト音声モデルのセマンティック潜在空間について
- Authors: Miri Varshavsky Hassid, Roy Hirsch, Regev Cohen, Tomer Golany, Daniel
Freedman, Ehud Rivlin
- Abstract要約: DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
- 参考スコア(独自算出の注目度): 15.966967200863845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The incorporation of Denoising Diffusion Models (DDMs) in the Text-to-Speech
(TTS) domain is rising, providing great value in synthesizing high quality
speech. Although they exhibit impressive audio quality, the extent of their
semantic capabilities is unknown, and controlling their synthesized speech's
vocal properties remains a challenge. Inspired by recent advances in image
synthesis, we explore the latent space of frozen TTS models, which is composed
of the latent bottleneck activations of the DDM's denoiser. We identify that
this space contains rich semantic information, and outline several novel
methods for finding semantic directions within it, both supervised and
unsupervised. We then demonstrate how these enable off-the-shelf audio editing,
without any further training, architectural changes or data requirements. We
present evidence of the semantic and acoustic qualities of the edited audio,
and provide supplemental samples:
https://latent-analysis-grad-tts.github.io/speech-samples/.
- Abstract(参考訳): テキスト音声(TTS)領域におけるDDM(Denoising Diffusion Models)の導入が増加し,高品質な音声の合成に大きく貢献している。
印象的な音質を示すが、その意味的能力の程度は不明であり、合成音声の音声特性の制御は依然として課題である。
画像合成の最近の進歩に触発されて、DDMのデノイザの潜在ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間を探索する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方でその空間内の意味的方向を見つけるためのいくつかの新しい方法を概説する。
次に、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集を可能にする方法をデモします。
編集されたオーディオの意味的および音響的性質の証拠を示し、補足的なサンプルを提供する。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis [45.558316325252335]
音声言語モデル(LM)は、文脈内学習を通じて高品質な音声合成を実現することを約束している。
合成音声がどのようにプロンプトとコンテンツによって制御されるかを検討する。
論文 参考訳(メタデータ) (2024-03-19T03:22:28Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Enhancing audio quality for expressive Neural Text-to-Speech [8.199224915764672]
本稿では,高表現率音声の信号品質を向上させるために,追加データを用いることなく活用できる一連の手法を提案する。
その結果,これらの手法を組み合わせることで,表現力のある有名人声のMUSHRAスコアにおいて,ベースラインシステムと録音との知覚自然さのギャップを39%削減できることが判明した。
論文 参考訳(メタデータ) (2021-08-13T14:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。