論文の概要: Flamed-TTS: Flow Matching Attention-Free Models for Efficient Generating and Dynamic Pacing Zero-shot Text-to-Speech
- arxiv url: http://arxiv.org/abs/2510.02848v1
- Date: Fri, 03 Oct 2025 09:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.337654
- Title: Flamed-TTS: Flow Matching Attention-Free Models for Efficient Generating and Dynamic Pacing Zero-shot Text-to-Speech
- Title(参考訳): Flamed-TTS: 効率的なゼロショット音声合成のためのフローマッチング無意図モデル
- Authors: Hieu-Nghia Huynh-Nguyen, Huynh Nguyen Dang, Ngoc-Son Nguyen, Van Nguyen,
- Abstract要約: Flamed-TTSは、低計算コスト、低レイテンシ、高音声忠実度と豊富な時間的多様性を強調する新しいゼロショットテキスト音声合成フレームワークである。
本研究では,Flamed-TTSが最先端モデルを超え,可知性,自然性,話者の類似性,音響特性の保存,動的ペースについて検討した。
- 参考スコア(独自算出の注目度): 2.5964779217812057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Text-to-Speech (TTS) has recently advanced significantly, enabling models to synthesize speech from text using short, limited-context prompts. These prompts serve as voice exemplars, allowing the model to mimic speaker identity, prosody, and other traits without extensive speaker-specific data. Although recent approaches incorporating language models, diffusion, and flow matching have proven their effectiveness in zero-shot TTS, they still encounter challenges such as unreliable synthesis caused by token repetition or unexpected content transfer, along with slow inference and substantial computational overhead. Moreover, temporal diversity-crucial for enhancing the naturalness of synthesized speech-remains largely underexplored. To address these challenges, we propose Flamed-TTS, a novel zero-shot TTS framework that emphasizes low computational cost, low latency, and high speech fidelity alongside rich temporal diversity. To achieve this, we reformulate the flow matching training paradigm and incorporate both discrete and continuous representations corresponding to different attributes of speech. Experimental results demonstrate that Flamed-TTS surpasses state-of-the-art models in terms of intelligibility, naturalness, speaker similarity, acoustic characteristics preservation, and dynamic pace. Notably, Flamed-TTS achieves the best WER of 4% compared to the leading zero-shot TTS baselines, while maintaining low latency in inference and high fidelity in generated speech. Code and audio samples are available at our demo page https://flamed-tts.github.io.
- Abstract(参考訳): Zero-shot Text-to-Speech (TTS)は、近ごろ大幅に進歩し、短い限定されたテキストプロンプトを使用して、テキストから音声を合成することができるようになった。
これらのプロンプトは音声の見本として機能し、モデルが話者のアイデンティティ、韻律、その他の特徴を、広範な話者固有のデータなしで模倣することができる。
言語モデル、拡散、フローマッチングを取り入れた最近のアプローチは、ゼロショットTSにおいてその効果が証明されているが、トークンの繰り返しや予期せぬコンテンツ転送によって生じる信頼性の低い合成や、推論の遅さや計算上のオーバーヘッドといった課題に直面している。
さらに, 合成音声の自然性を高めるための時間的多様性調査は, ほとんど調査されていない。
これらの課題に対処するためにFlamed-TTSを提案する。Flamed-TTSは低計算コスト,低レイテンシ,高音声忠実度と時間的多様性を両立させる新しいゼロショットTTSフレームワークである。
これを実現するために、フローマッチングトレーニングパラダイムを再構築し、音声の異なる属性に対応する離散表現と連続表現の両方を組み込む。
実験結果から,Flamed-TTSは知性,自然性,話者類似性,音響特性の保存,動的ペースの点で最先端モデルを上回ることがわかった。
特に、Flamed-TTSは、トップのゼロショットTSベースラインと比較して4%のWERを達成し、推論の低レイテンシと生成された音声の忠実度を維持している。
コードとオーディオサンプルは、私たちのデモページ https://flamed-tts.github.io.com で公開されている。
関連論文リスト
- DiFlow-TTS: Discrete Flow Matching with Factorized Speech Tokens for Low-Latency Zero-Shot Text-To-Speech [8.537791317883576]
Zero-shot Text-to-Speech (TTS) は、短い参照サンプルのみを用いて、目に見えない話者の声を模倣する高品質な音声を合成することを目的としている。
言語モデル,拡散,フローマッチングに基づく最近のアプローチは,ゼロショットTSにおいて有望な結果を示しているが,それでも遅い推論と繰り返しアーティファクトに悩まされている。
音声合成のための純粋離散フローマッチングを探索する最初のモデルであるDiFlow-TTSを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:16:52Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。