論文の概要: LatentSpeech: Latent Diffusion for Text-To-Speech Generation
- arxiv url: http://arxiv.org/abs/2412.08117v1
- Date: Wed, 11 Dec 2024 05:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:00:17.181564
- Title: LatentSpeech: Latent Diffusion for Text-To-Speech Generation
- Title(参考訳): LatentSpeech:テキスト音声生成のための潜時拡散
- Authors: Haowei Lou, Helen Paik, Pari Delir Haghighi, Wen Hu, Lina Yao,
- Abstract要約: 遅延拡散モデルを用いた新しいTS生成手法であるLatentSpeechを提案する。
LatentSpeechはターゲット次元をMelSpecsに必要なものの5%に削減し、TSエンコーダとvocoderの処理を簡素化する。
本研究は, TTSにおける潜在拡散モデルの最初の統合であり, 生成した音声の精度と自然性を高めるものである。
- 参考スコア(独自算出の注目度): 12.782086426134533
- License:
- Abstract: Diffusion-based Generative AI gains significant attention for its superior performance over other generative techniques like Generative Adversarial Networks and Variational Autoencoders. While it has achieved notable advancements in fields such as computer vision and natural language processing, their application in speech generation remains under-explored. Mainstream Text-to-Speech systems primarily map outputs to Mel-Spectrograms in the spectral space, leading to high computational loads due to the sparsity of MelSpecs. To address these limitations, we propose LatentSpeech, a novel TTS generation approach utilizing latent diffusion models. By using latent embeddings as the intermediate representation, LatentSpeech reduces the target dimension to 5% of what is required for MelSpecs, simplifying the processing for the TTS encoder and vocoder and enabling efficient high-quality speech generation. This study marks the first integration of latent diffusion models in TTS, enhancing the accuracy and naturalness of generated speech. Experimental results on benchmark datasets demonstrate that LatentSpeech achieves a 25% improvement in Word Error Rate and a 24% improvement in Mel Cepstral Distortion compared to existing models, with further improvements rising to 49.5% and 26%, respectively, with additional training data. These findings highlight the potential of LatentSpeech to advance the state-of-the-art in TTS technology
- Abstract(参考訳): 拡散ベースのジェネレーティブAIは、ジェネレーティブ・アドバイサル・ネットワークや変分オートエンコーダといった他のジェネレーティブ・テクニックよりも優れたパフォーマンスで大きな注目を集めている。
コンピュータビジョンや自然言語処理などの分野では目覚ましい進歩を遂げてきたが、音声生成への応用はいまだ検討されていない。
メインストリームテキスト音声システムは、主にスペクトル空間のメルスペクトログラムに出力をマッピングし、メルスペクトログラムの幅が狭いために高い計算負荷をもたらす。
これらの制約に対処するため,潜在拡散モデルを用いた新しいTS生成手法であるLatentSpeechを提案する。
中間表現として潜在埋め込みを用いることで、LatentSpeechはターゲット次元をMelSpecsに必要な5%に削減し、TSエンコーダとボコーダの処理を簡素化し、効率的な高品質な音声生成を可能にする。
本研究は, TTSにおける潜在拡散モデルの最初の統合であり, 生成した音声の精度と自然性を高めるものである。
ベンチマークデータセットの実験結果によると、LatentSpeechは単語エラー率を25%改善し、Mel Cepstral Distortionを24%改善し、それぞれ49.5%と26%に向上した。
これらの知見は, TTS技術の最先端化に向けたLatntSpeechの可能性を明らかにするものである。
関連論文リスト
- DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - Sample-Efficient Diffusion for Text-To-Speech Synthesis [31.372486998377966]
U-Audio Transformer (U-AT)と呼ばれる新しい拡散アーキテクチャに基づいている。
SESDは1k時間未満の音声のトレーニングにもかかわらず、印象的な結果が得られる。
2%未満のトレーニングデータを使用しながら、最先端の自己回帰モデルであるVALL-Eよりも知的な音声を合成する。
論文 参考訳(メタデータ) (2024-09-01T20:34:36Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising
Diffusion GANs [39.388599580262614]
DiffGAN-TTS(DiffGAN-TTS, DDPM-based text-to-speech)モデルを導入し, 高忠実度音声合成を実現する。
実験の結果,DiffGAN-TTSは1段階のみの高合成性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-01-28T07:41:10Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。