論文の概要: ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs
- arxiv url: http://arxiv.org/abs/2508.09389v1
- Date: Tue, 12 Aug 2025 23:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.710579
- Title: ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs
- Title(参考訳): ProMode:音響入力とテキスト入力に基づく音声韻律モデル
- Authors: Eray Eren, Qingju Liu, Hyeongwoo Kim, Pablo Garrido, Abeer Alwan,
- Abstract要約: 韻律は、個々の慣用句と同様に、音声信号の豊かな感情的・意味的な情報を伝える。
本稿では,F0やエネルギといったテキストと韻律の特徴をマッピングするスタンドアローンモデルを提案する。
また,これらの予測された韻律的特徴をTSシステムに統合し,ベースラインよりも高い韻律的嗜好を示す知覚的テストを行う。
- 参考スコア(独自算出の注目度): 15.494830253163572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prosody conveys rich emotional and semantic information of the speech signal as well as individual idiosyncrasies. We propose a stand-alone model that maps text-to-prosodic features such as F0 and energy and can be used in downstream tasks such as TTS. The ProMode encoder takes as input acoustic features and time-aligned textual content, both are partially masked, and obtains a fixed-length latent prosodic embedding. The decoder predicts acoustics in the masked region using both the encoded prosody input and unmasked textual content. Trained on the GigaSpeech dataset, we compare our method with state-of-the-art style encoders. For F0 and energy predictions, we show consistent improvements for our model at different levels of granularity. We also integrate these predicted prosodic features into a TTS system and conduct perceptual tests, which show higher prosody preference compared to the baselines, demonstrating the model's potential in tasks where prosody modeling is important.
- Abstract(参考訳): 韻律は、個々の慣用句と同様に、音声信号の豊かな感情的・意味的な情報を伝える。
本稿では,F0やエネルギといったテキストとプロソディカルな特徴をマッピングし,TSなどの下流タスクで使用できるスタンドアローンモデルを提案する。
ProModeエンコーダは入力音響特性とタイムアラインなテキストコンテンツを部分的にマスキングし、固定長の潜在韻律埋め込みを得る。
デコーダは、符号化された韻律入力と未知のテキストコンテンツの両方を用いて、マスク領域の音響を予測する。
GigaSpeechデータセットに基づいて,本手法を最先端のエンコーダと比較した。
F0 とエネルギー予測では、モデルに対して異なる粒度レベルで一貫した改善が示される。
また,これらの予測された韻律特徴をTSシステムに統合し,ベースラインよりも高い韻律嗜好を示す知覚テストを行い,韻律モデリングが重要なタスクにおけるモデルの可能性を示す。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors [8.419383213705789]
本稿では,Diffusion Transformer (DiT) ベースのTSモデルであるDiTTo-TTSを導入し,LDMベースのTSがドメイン固有の要因を伴わずに最先端の性能を達成できるかどうかを検討する。
最小修正のDiTは、U-Netよりも優れており、音声長予測器による可変長モデリング、音声潜在表現のセマンティックアライメントなどの条件は、さらなる拡張の鍵となる。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Style Description based Text-to-Speech with Conditional Prosodic Layer
Normalization based Diffusion GAN [17.876323494898536]
本稿では,4段階以内の音声サンプルを生成するための入力として,スタイル記述とコンテンツテキストに基づく高忠実度音声を生成するための拡散GANに基づくアプローチ(韻律Diff-TTS)を提案する。
提案手法の有効性を多話者LibriTTSおよびPromptSpeechデータセットに示す。
論文 参考訳(メタデータ) (2023-10-27T14:28:41Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。