論文の概要: Clip-TTS: Contrastive Text-content and Mel-spectrogram, A High-Huality Text-to-Speech Method based on Contextual Semantic Understanding
- arxiv url: http://arxiv.org/abs/2502.18889v1
- Date: Wed, 26 Feb 2025 07:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:33.843284
- Title: Clip-TTS: Contrastive Text-content and Mel-spectrogram, A High-Huality Text-to-Speech Method based on Contextual Semantic Understanding
- Title(参考訳): Clip-TTS:文脈意味理解に基づく高純度テキスト音声合成法であるコントラストテキストコンテントとメルスペクトル
- Authors: Tianyun Liu,
- Abstract要約: Clip アーキテクチャに基づく TTS 方式 Clip-TTS を提案する。
この方法はClipフレームワークを用いてテキストエンコーディングの段階でテキストコンテンツと実際のメル-スペクトログラムの接続を確立する。
モデルアーキテクチャに関しては、Clip-TTSが高速な推論速度を実現するためのTransformerの基本構造を採用しています。
- 参考スコア(独自算出の注目度): 0.6798775532273751
- License:
- Abstract: Traditional text-to-speech (TTS) methods primarily focus on establishing a mapping between phonemes and mel-spectrograms. However, during the phoneme encoding stage, there is often a lack of real mel-spectrogram auxiliary information, which results in the encoding process lacking true semantic understanding. At the same time, traditional TTS systems often struggle to balance the inference speed of the model with the quality of the synthesized speech. Methods that generate high-quality synthesized speech tend to have slower inference speeds, while faster inference methods often sacrifice speech quality. In this paper, I propose Clip-TTS, a TTS method based on the Clip architecture. This method uses the Clip framework to establish a connection between text content and real mel-spectrograms during the text encoding stage, enabling the text encoder to directly learn the true semantics of the global context, thereby ensuring the quality of the synthesized speech. In terms of model architecture, I adopt the basic structure of Transformer, which allows Clip-TTS to achieve fast inference speeds. Experimental results show that on the LJSpeech and Baker datasets, the speech generated by Clip-TTS achieves state-of-the-art MOS scores, and it also performs excellently on multi-emotion datasets.Audio samples are available at: https://ltydd1314.github.io/.
- Abstract(参考訳): 従来のTTS(text-to-speech)法は主に音素とメル-スペクトログラムのマッピングの確立に重点を置いている。
しかし、音素符号化の段階では、実際のメル・スペクトログラム補助情報が欠落することが多く、結果として、真の意味理解が欠如している。
同時に、従来のTSシステムは、モデルの推論速度と合成音声の品質のバランスをとるのに苦労することが多い。
高品質な合成音声を生成する手法は推論速度が遅い傾向にあり、高速な推論手法は音声品質を犠牲にすることが多い。
本稿では,Clipアーキテクチャに基づくTS法であるClip-TTSを提案する。
この方法は、Clipフレームワークを用いてテキストエンコーディング段階でテキストコンテンツと実際のメル-スペクトログラムの接続を確立することにより、テキストエンコーダがグローバルコンテキストの真の意味を直接学習し、合成された音声の品質を保証する。
モデルアーキテクチャに関しては、Clip-TTSが高速な推論速度を実現するためのTransformerの基本構造を採用しています。
実験結果から,LJSpeech と Baker のデータセットでは,Clip-TTS が生成した音声が最先端の MOS スコアを達成し,マルチ感情データセット上でも優れたパフォーマンスを発揮することが明らかになった。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。