論文の概要: DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech
- arxiv url: http://arxiv.org/abs/2409.11835v1
- Date: Wed, 18 Sep 2024 09:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 18:23:34.787550
- Title: DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech
- Title(参考訳): DPI-TTS:テキスト音声における高速収束とスタイル時間モデリングのための方向的パッチインタラクション
- Authors: Xin Qi, Ruibo Fu, Zhengqi Wen, Tao Wang, Chunyu Qiang, Jianhua Tao, Chenxing Li, Yi Lu, Shuchen Shi, Zhiyong Wang, Xiaopeng Wang, Yuankun Xie, Yukun Liu, Xuefei Liu, Guanjun Li,
- Abstract要約: テキスト・トゥ・音声(DPI-TTS)のための方向的パッチ・インタラクション法を提案する。
DPI-TTSは低周波数から高周波数のフレーム・バイ・フレームプログレッシブ・推論・アプローチを採用しており、音響特性とより密に一致している。
実験により,本手法はトレーニング速度を約2倍に向上し,ベースラインモデルよりも大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 43.45691362372739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, speech diffusion models have advanced rapidly. Alongside the widely used U-Net architecture, transformer-based models such as the Diffusion Transformer (DiT) have also gained attention. However, current DiT speech models treat Mel spectrograms as general images, which overlooks the specific acoustic properties of speech. To address these limitations, we propose a method called Directional Patch Interaction for Text-to-Speech (DPI-TTS), which builds on DiT and achieves fast training without compromising accuracy. Notably, DPI-TTS employs a low-to-high frequency, frame-by-frame progressive inference approach that aligns more closely with acoustic properties, enhancing the naturalness of the generated speech. Additionally, we introduce a fine-grained style temporal modeling method that further improves speaker style similarity. Experimental results demonstrate that our method increases the training speed by nearly 2 times and significantly outperforms the baseline models.
- Abstract(参考訳): 近年,音声拡散モデルが急速に進展している。
広く使われているU-Netアーキテクチャに加えて、Diffusion Transformer (DiT)のようなトランスフォーマーベースのモデルも注目されている。
しかし、現在のDiT音声モデルは、メルスペクトルを一般画像として扱い、音声の特定の音響特性を見落としている。
このような制約に対処するため,DPI-TTS (Directional Patch Interaction for Text-to-Speech) という手法を提案する。
特に、DPI-TTSは低周波数・フレーム単位のプログレッシブ推論アプローチを採用し、音響特性とより密に一致させ、生成した音声の自然性を高める。
さらに、話者スタイルの類似性をさらに向上する、きめ細かいスタイルの時間的モデリング手法を提案する。
実験により,本手法はトレーニング速度を約2倍に向上し,ベースラインモデルよりも大幅に向上することが示された。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability [7.005068872406135]
DEX-TTS (Diffusion-based Expressive TTS) は参照型音声合成のための音響モデルである。
DEX-TTSは、参照音声から抽出されたスタイルを扱うエンコーダとアダプタを含んでいる。
さらに、TTSの拡散ネットワークを改善するために、重複パッチと畳み込み周波数パッチの埋め込み方式を導入する。
論文 参考訳(メタデータ) (2024-06-27T12:39:55Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Diff-TTS: A Denoising Diffusion Model for Text-to-Speech [14.231478930274058]
自然で効率的な音声合成を実現する新しい非自己回帰型TTSモデルであるDiff-TTSを提案する。
Diff-TTSは、拡散時間ステップを通じてノイズ信号をメル・スペクトログラムに変換するデノイジング拡散フレームワークを利用しています。
Diff-TTSが1つのNVIDIA 2080Ti GPUでリアルタイムよりも28倍高速に生成されることを検証する。
論文 参考訳(メタデータ) (2021-04-03T13:53:19Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z) - End-to-End Text-to-Speech using Latent Duration based on VQ-VAE [48.151894340550385]
テキスト音声合成(TTS)におけるロバストかつ効率的なアライメントの実現の鍵となる明示的持続時間モデリング
本稿では,時間長をTSの離散潜在変数として組み込んだ明示的持続時間モデルを用いた新しいTSフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。