論文の概要: Assessing the Ability of Neural TTS Systems to Model Consonant-Induced F0 Perturbation
- arxiv url: http://arxiv.org/abs/2603.21078v1
- Date: Sun, 22 Mar 2026 06:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.227993
- Title: Assessing the Ability of Neural TTS Systems to Model Consonant-Induced F0 Perturbation
- Title(参考訳): モデル共振子誘起F0摂動に対するニューラルTSシステムの能力評価
- Authors: Tianle Yang, Chengzhe Sun, Phil Rose, Cassandra L. Jacobs, Siwei Lyu,
- Abstract要約: 本研究では,子音によるf0摂動を再現するニューラルネットワークモデルの性能を評価するための分節レベルの韻律探索フレームワークを提案する。
同じ音声コーパス(LJ音声)で訓練されたTacotron 2とFastSpeech 2を用いて、語彙周波数で階層化された何千もの単語の合成および自然な音声認識を比較する。
その結果,高周波単語の再現精度は高いが,低周波項目への一般化は低かった。
- 参考スコア(独自算出の注目度): 30.798688471243413
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study proposes a segmental-level prosodic probing framework to evaluate neural TTS models' ability to reproduce consonant-induced f0 perturbation, a fine-grained segmental-prosodic effect that reflects local articulatory mechanisms. We compare synthetic and natural speech realizations for thousands of words, stratified by lexical frequency, using Tacotron 2 and FastSpeech 2 trained on the same speech corpus (LJ Speech). These controlled analyses are then complemented by a large-scale evaluation spanning multiple advanced TTS systems. Results show accurate reproduction for high-frequency words but poor generalization to low-frequency items, suggesting that the examined TTS architectures rely more on lexical-level memorization than on abstract segmental-prosodic encoding. This finding highlights a limitation in such TTS systems' ability to generalize prosodic detail beyond seen data. The proposed probe offers a linguistically informed diagnostic framework that may inform future TTS evaluation methods, and has implications for interpretability and authenticity assessment in synthetic speech.
- Abstract(参考訳): 本研究では, 局所的な調音機構を反映した微細な分節・韻律効果である, 子音誘発f0摂動を再現する神経TSモデルの性能を評価するための分節レベルの韻律探索フレームワークを提案する。
我々は,同じ音声コーパス(LJ音声)で訓練したTacotron 2とFastSpeech 2を用いて,語彙周波数で成層化した何千もの単語の合成および自然な音声認識を比較した。
これらの制御された解析は、複数の高度なTSシステムにまたがる大規模評価によって補完される。
その結果, 高頻度単語の正確な再現性は低いが, 低頻度項目への一般化性は低いことが示唆され, TTSアーキテクチャは抽象セグメント・韻律符号化よりも語彙レベルの記憶に頼っていることが示唆された。
この発見は、これらのTSシステムの可視データを超えた韻律的詳細を一般化する能力の限界を浮き彫りにしている。
提案手法は,将来のTS評価手法を通知する言語情報に基づく診断フレームワークを提供し,合成音声における解釈可能性や認証性評価に影響を及ぼすものである。
関連論文リスト
- Audio Deepfake Detection in the Age of Advanced Text-to-Speech models [0.0]
テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。
テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。
論文 参考訳(メタデータ) (2026-01-28T11:39:40Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Applying Syntax$\unicode{x2013}$Prosody Mapping Hypothesis and Prosodic
Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis [7.609330016848916]
エンドツーエンドのテキスト音声(TTS)は、テキストや音素の文字列から直接音声を生成する。
本研究は,音韻的制約に基づき,リズミカル言語学を再現できるかどうかを考察する。
学習データに明示的に含まれていない試験データ中の音韻現象を効率よく合成するモデルを提案する。
論文 参考訳(メタデータ) (2022-03-29T06:45:28Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。