論文の概要: ARCHI-TTS: A flow-matching-based Text-to-Speech Model with Self-supervised Semantic Aligner and Accelerated Inference
- arxiv url: http://arxiv.org/abs/2602.05207v1
- Date: Thu, 05 Feb 2026 02:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.710491
- Title: ARCHI-TTS: A flow-matching-based Text-to-Speech Model with Self-supervised Semantic Aligner and Accelerated Inference
- Title(参考訳): ARCHI-TTS:自己教師型セマンティックアリグナーと高速化推論を用いたフローマッチング型テキスト音声合成モデル
- Authors: Chunyat Wu, Jiajun Deng, Zhengxi Liu, Zheqi Dai, Haolin He, Qiuqiang Kong,
- Abstract要約: ARCHI-TTSは、テキストとオーディオ間の堅牢な時間的および意味的整合性を保証する専用のセマンティック整合器を備えている。
ARCHI-TTSは最近の最先端のTSシステムより一貫して優れています。
- 参考スコア(独自算出の注目度): 31.668558507339625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although diffusion-based, non-autoregressive text-to-speech (TTS) systems have demonstrated impressive zero-shot synthesis capabilities, their efficacy is still hindered by two key challenges: the difficulty of text-speech alignment modeling and the high computational overhead of the iterative denoising process. To address these limitations, we propose ARCHI-TTS that features a dedicated semantic aligner to ensure robust temporal and semantic consistency between text and audio. To overcome high computational inference costs, ARCHI-TTS employs an efficient inference strategy that reuses encoder features across denoising steps, drastically accelerating synthesis without performance degradation. An auxiliary CTC loss applied to the condition encoder further enhances the semantic understanding. Experimental results demonstrate that ARCHI-TTS achieves a WER of 1.98% on LibriSpeech-PC test-clean, and 1.47%/1.42% on SeedTTS test-en/test-zh with a high inference efficiency, consistently outperforming recent state-of-the-art TTS systems.
- Abstract(参考訳): 拡散に基づく非自己回帰型音声合成システム(TTS)は, ゼロショット合成能力に優れるが, テキスト音声アライメントモデリングの難しさと反復復調プロセスの計算オーバーヘッドの増大という2つの大きな課題により, 有効性が妨げられている。
これらの制約に対処するため,テキストと音声間の時間的・意味的整合性を確保するために,専用のセマンティック整合器を備えるARCHI-TTSを提案する。
高い計算的推論コストを克服するため、ARCHI-TTSは効率的な推論戦略を採用し、デノナイジングステップ間でエンコーダ機能を再利用し、性能劣化を伴わずに合成を大幅に高速化する。
コンディションエンコーダに適用された補助的なCTC損失は、セマンティック理解をさらに強化する。
実験の結果,Archi-TTS は LibriSpeech-PC テストクリーンでは 1.98%,SeedTTS test-en/test-zh では 1.47%/1.42% の WER を達成し,推論効率が向上し,最近の TTS システムより一貫して優れていた。
関連論文リスト
- CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech [66.29338461991715]
CapTTS関連の一連のタスクのための新しいベンチマークであるCapSpeechを紹介する。
CapSpeechは、1000万以上の機械アノテーション付きオーディオキャプチャーペアと、約0.36万の人間アノテーション付きオーディオキャプチャーペアで構成されている。
CapSpeech上で自己回帰モデルと非自己回帰モデルの両方を用いて包括的実験を行う。
論文 参考訳(メタデータ) (2025-06-03T13:28:55Z) - HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation [19.997594859651233]
HENT-SRTは、ASRと翻訳タスクを分解して、再注文の処理を改善する新しいフレームワークである。
ASRトランスデューサのベストプラクティスを取り入れて計算効率を向上させる。
提案手法は,アラビア語,スペイン語,マンダリンの3つの会話データセットを用いて評価した。
論文 参考訳(メタデータ) (2025-06-02T18:37:50Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising
Diffusion GANs [39.388599580262614]
DiffGAN-TTS(DiffGAN-TTS, DDPM-based text-to-speech)モデルを導入し, 高忠実度音声合成を実現する。
実験の結果,DiffGAN-TTSは1段階のみの高合成性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-01-28T07:41:10Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep
VAE with Residual Attention [28.15932481851868]
本稿では,超深度変分オートエンコーダ(VDVAE)を用いた非自己回帰的(非AR)テキスト音声合成モデルを提案する。
実験結果から,VARA-TTSはARのタコトロン2に比べて音声品質がわずかに劣るが,推定精度は高くなることがわかった。
論文 参考訳(メタデータ) (2021-02-12T10:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。