Fugu-MT 論文翻訳(概要): On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models

論文の概要: On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models

arxiv url: http://arxiv.org/abs/2402.12423v1
Date: Mon, 19 Feb 2024 16:22:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 18:34:54.036830
Title: On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models
Title（参考訳）: 拡散に基づくテキスト音声モデルのセマンティック潜在空間について
Authors: Miri Varshavsky Hassid, Roy Hirsch, Regev Cohen, Tomer Golany, Daniel Freedman, Ehud Rivlin
Abstract要約: DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
参考スコア（独自算出の注目度）: 15.966967200863845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The incorporation of Denoising Diffusion Models (DDMs) in the Text-to-Speech (TTS) domain is rising, providing great value in synthesizing high quality speech. Although they exhibit impressive audio quality, the extent of their semantic capabilities is unknown, and controlling their synthesized speech's vocal properties remains a challenge. Inspired by recent advances in image synthesis, we explore the latent space of frozen TTS models, which is composed of the latent bottleneck activations of the DDM's denoiser. We identify that this space contains rich semantic information, and outline several novel methods for finding semantic directions within it, both supervised and unsupervised. We then demonstrate how these enable off-the-shelf audio editing, without any further training, architectural changes or data requirements. We present evidence of the semantic and acoustic qualities of the edited audio, and provide supplemental samples: https://latent-analysis-grad-tts.github.io/speech-samples/.
Abstract（参考訳）: テキスト音声(TTS)領域におけるDDM(Denoising Diffusion Models)の導入が増加し,高品質な音声の合成に大きく貢献している。印象的な音質を示すが、その意味的能力の程度は不明であり、合成音声の音声特性の制御は依然として課題である。画像合成の最近の進歩に触発されて、DDMのデノイザの潜在ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間を探索する。この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方でその空間内の意味的方向を見つけるためのいくつかの新しい方法を概説する。次に、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集を可能にする方法をデモします。編集されたオーディオの意味的および音響的性質の証拠を示し、補足的なサンプルを提供する。

関連論文リスト

Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance [9.87139502863569]
Koel-TTSは拡張エンコーダデコーダトランスフォーマーTSモデルのスイートである。拡張エンコーダデコーダトランスフォーマーTSモデルのスイートであるKoel-TTSを紹介する。
論文参考訳（メタデータ） (2025-02-07T06:47:11Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis [45.558316325252335]
音声言語モデル(LM)は、文脈内学習を通じて高品質な音声合成を実現することを約束している。合成音声がどのようにプロンプトとコンテンツによって制御されるかを検討する。
論文参考訳（メタデータ） (2024-03-19T03:22:28Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。 10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文参考訳（メタデータ） (2022-11-04T16:06:56Z)
Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文参考訳（メタデータ） (2022-06-06T11:51:22Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Enhancing audio quality for expressive Neural Text-to-Speech [8.199224915764672]
本稿では,高表現率音声の信号品質を向上させるために,追加データを用いることなく活用できる一連の手法を提案する。その結果,これらの手法を組み合わせることで,表現力のある有名人声のMUSHRAスコアにおいて,ベースラインシステムと録音との知覚自然さのギャップを39%削減できることが判明した。
論文参考訳（メタデータ） (2021-08-13T14:32:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。