論文の概要: Investigating Stochastic Methods for Prosody Modeling in Speech Synthesis
- arxiv url: http://arxiv.org/abs/2507.00227v1
- Date: Mon, 30 Jun 2025 19:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.743646
- Title: Investigating Stochastic Methods for Prosody Modeling in Speech Synthesis
- Title(参考訳): 音声合成における韻律モデリングのための確率的手法の検討
- Authors: Paul Mayer, Florian Lux, Alejandro Pérez-González-de-Martos, Angelina Elizarova, Lindsey Vanderlyn, Dirk Väth, Ngoc Thang Vu,
- Abstract要約: 生成法は近年急速に進歩しているが, 発話のための表現的韻律を生成することは, 依然として困難な課題である。
本研究では, 正規化フロー, 条件付きフローマッチング, 整流フローなどの手法の有効性について検討する。
本研究の主観的・客観的評価は,人間の発話に固有の変動を捉えることによって,人間の話者と同等に自然な韻律を生成することを示す。
- 参考スコア(独自算出の注目度): 59.68341193176134
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While generative methods have progressed rapidly in recent years, generating expressive prosody for an utterance remains a challenging task in text-to-speech synthesis. This is particularly true for systems that model prosody explicitly through parameters such as pitch, energy, and duration, which is commonly done for the sake of interpretability and controllability. In this work, we investigate the effectiveness of stochastic methods for this task, including Normalizing Flows, Conditional Flow Matching, and Rectified Flows. We compare these methods to a traditional deterministic baseline, as well as to real human realizations. Our extensive subjective and objective evaluations demonstrate that stochastic methods produce natural prosody on par with human speakers by capturing the variability inherent in human speech. Further, they open up additional controllability options by allowing the sampling temperature to be tuned.
- Abstract(参考訳): 近年, 生成法は急速に進歩しているが, 音声合成において, 発話のための表現的韻律を生成することは難しい課題である。
これは特に、解釈可能性や可制御性のために一般的に行われるピッチ、エネルギ、持続時間などのパラメータを通して、韻律を明示的にモデル化するシステムに当てはまる。
本研究では, 正規化フロー, 条件付きフローマッチング, 整流フローなど, この課題に対する確率的手法の有効性について検討する。
これらの手法を従来の決定論的ベースラインと実際の人間実現と比較する。
主観的,客観的な評価から,確率的手法は人間の発話に固有の変動を捉えることによって,人間の話者と同等に自然な韻律を生成することが示された。
さらに、サンプリング温度を調整できるようにして、追加の制御性オプションを開放する。
関連論文リスト
- Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - Modeling Temporal Data as Continuous Functions with Stochastic Process
Diffusion [2.2849153854336763]
時間データは、基礎となる関数の離散化測定と見なすことができる。
このようなデータの生成モデルを構築するには、そのデータを管理するプロセスをモデル化する必要があります。
本稿では,関数空間における微分拡散モデルを定義することで解を提案する。
論文 参考訳(メタデータ) (2022-11-04T17:02:01Z) - Fast and efficient speech enhancement with variational autoencoders [0.0]
変分オートエンコーダに基づく教師なし音声強調は、一般的な教師付き手法と比較して有望な性能を示した。
本稿では,複数のサンプル列を生成するランゲヴィン力学に基づく新しい手法を提案する。
提案手法は, 計算効率と品質向上を効果的に両立させ, 既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T09:52:13Z) - Locally Typical Sampling [84.62530743899025]
我々は、今日の確率的言語ジェネレータが、一貫性と流動性のあるテキストを生成する際に不足していることを示します。
本稿では,確率モデルから生成する際の,この基準を強制するための簡易かつ効率的な手順を提案する。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。