論文の概要: Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS
- arxiv url: http://arxiv.org/abs/2512.08006v1
- Date: Mon, 08 Dec 2025 19:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.708755
- Title: Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS
- Title(参考訳): 統一モデルを超えて: リアルタイムTSのための低レイテンシ、コンテキスト対応音声化のためのサービス指向アプローチ
- Authors: Mahta Fetrat, Donya Navabi, Zahra Dehghanian, Morteza Abolghasemi, Hamid R. Rabiee,
- Abstract要約: 本稿では,G2P支援TSシステムにおける音素化品質と推論速度のトレードオフについて検討する。
我々は,これらのモジュールを独立したサービスとして実行する,コンテキスト対応の音素化のための軽量な戦略とサービス指向TSアーキテクチャを提案する。
この設計は、コアTSエンジンから重いコンテキスト認識コンポーネントを分離し、遅延障壁を効果的に破壊し、高品質な音素化モデルのリアルタイム使用を可能にする。
- 参考スコア(独自算出の注目度): 9.741640537235488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lightweight, real-time text-to-speech systems are crucial for accessibility. However, the most efficient TTS models often rely on lightweight phonemizers that struggle with context-dependent challenges. In contrast, more advanced phonemizers with a deeper linguistic understanding typically incur high computational costs, which prevents real-time performance. This paper examines the trade-off between phonemization quality and inference speed in G2P-aided TTS systems, introducing a practical framework to bridge this gap. We propose lightweight strategies for context-aware phonemization and a service-oriented TTS architecture that executes these modules as independent services. This design decouples heavy context-aware components from the core TTS engine, effectively breaking the latency barrier and enabling real-time use of high-quality phonemization models. Experimental results confirm that the proposed system improves pronunciation soundness and linguistic accuracy while maintaining real-time responsiveness, making it well-suited for offline and end-device TTS applications.
- Abstract(参考訳): 軽量でリアルタイムのテキスト音声合成システムはアクセシビリティにとって不可欠だ。
しかし、最も効率的なTSモデルは、しばしば文脈に依存した課題に苦しむ軽量の電話機に依存している。
対照的に、より深い言語的理解を持つより高度な音声処理器は、通常、高い計算コストを発生させ、リアルタイムのパフォーマンスを損なう。
本稿では,G2P 支援 TTS システムにおける音素化品質と推論速度のトレードオフについて検討し,このギャップを埋めるための実用的な枠組みを提案する。
我々は,これらのモジュールを独立したサービスとして実行する,コンテキスト対応の音素化のための軽量な戦略とサービス指向TSアーキテクチャを提案する。
この設計は、コアTSエンジンから重いコンテキスト認識コンポーネントを分離し、遅延障壁を効果的に破壊し、高品質な音素化モデルのリアルタイム使用を可能にする。
実験結果から, リアルタイム応答性を維持しつつ, 発音精度と言語的精度を向上し, オフライン, エンドデバイス TTS アプリケーションに適していることを確認した。
関連論文リスト
- Overcoming Latency Bottlenecks in On-Device Speech Translation: A Cascaded Approach with Alignment-Based Streaming MT [19.133273093370896]
本稿では,ASR(Automatic Speech Recognition)とMT(Machine Translation)をリアルタイム・オンデバイス・ストリーミング音声翻訳に利用する際の課題について述べる。
本稿では,翻訳品質とレイテンシを効果的にバランスさせる同時翻訳手法を提案する。
我々は,デバイス上でのバイリンガル音声翻訳にアプローチを適用し,レイテンシと品質の点で,我々の技術がベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-08-18T21:00:11Z) - InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems [48.42417538526542]
テキスト音声システムは、固定されたスタイルのラベルに依存したり、これらのキューを制御するために音声プロンプトを挿入する。
近年の試みでは、パラ言語的特徴を修飾する自然言語命令の活用が試みられている。
InstructTTSEvalは、複雑な自然言語スタイル制御の能力を測定するためのベンチマークである。
論文 参考訳(メタデータ) (2025-06-19T15:08:01Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System [10.156665325783583]
SupertonicTTSは、効率的な音声合成のために設計された新しい音声合成システムである。
我々は、軽量アーキテクチャを実現するために、低次元の潜伏空間、潜伏空間の時間圧縮、およびConvNeXtブロックを用いる。
実験の結果、SupertonicTTSは、44Mパラメータしか持たない現代のゼロショットTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-29T14:59:32Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - One TTS Alignment To Rule Them All [26.355019468082247]
音声テキストアライメントは、ニューラルテキスト音声(TTS)モデルの重要な構成要素である。
本稿では,RAD-TTSにおけるアライメント機構を汎用的なアライメント学習フレームワークとして活用する。
このフレームワークは、フォワードサムアルゴリズム、ビタビアルゴリズム、単純で効率的な静的先行処理を組み合わせたものである。
論文 参考訳(メタデータ) (2021-08-23T23:45:48Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - End-to-End Text-to-Speech using Latent Duration based on VQ-VAE [48.151894340550385]
テキスト音声合成(TTS)におけるロバストかつ効率的なアライメントの実現の鍵となる明示的持続時間モデリング
本稿では,時間長をTSの離散潜在変数として組み込んだ明示的持続時間モデルを用いた新しいTSフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。