論文の概要: Applying Syntax$\unicode{x2013}$Prosody Mapping Hypothesis and Prosodic
Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis
- arxiv url: http://arxiv.org/abs/2203.15276v1
- Date: Tue, 29 Mar 2022 06:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:40:05.600967
- Title: Applying Syntax$\unicode{x2013}$Prosody Mapping Hypothesis and Prosodic
Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis
- Title(参考訳): 構文$\unicode{x2013}$prosody mapping hypothesis と韻律的 well-formedness constraints のニューラルネットワーク合成への応用
- Authors: Kei Furukawa, Takeshi Kishiyama, and Satoshi Nakamura
- Abstract要約: エンドツーエンドのテキスト音声(TTS)は、テキストや音素の文字列から直接音声を生成する。
本研究は,音韻的制約に基づき,リズミカル言語学を再現できるかどうかを考察する。
学習データに明示的に含まれていない試験データ中の音韻現象を効率よく合成するモデルを提案する。
- 参考スコア(独自算出の注目度): 7.609330016848916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end text-to-speech synthesis (TTS), which generates speech sounds
directly from strings of texts or phonemes, has improved the quality of speech
synthesis over the conventional TTS. However, most previous studies have been
evaluated based on subjective naturalness and have not objectively examined
whether they can reproduce pitch patterns of phonological phenomena such as
downstep, rhythmic boost, and initial lowering that reflect syntactic
structures in Japanese. These phenomena can be linguistically explained by
phonological constraints and the syntax$\unicode{x2013}$prosody mapping
hypothesis (SPMH), which assumes projections from syntactic structures to
phonological hierarchy. Although some experiments in psycholinguistics have
verified the validity of the SPMH, it is crucial to investigate whether it can
be implemented in TTS. To synthesize linguistic phenomena involving syntactic
or phonological constraints, we propose a model using phonological symbols
based on the SPMH and prosodic well-formedness constraints. Experimental
results showed that the proposed method synthesized similar pitch patterns to
those reported in linguistics experiments for the phenomena of initial lowering
and rhythmic boost. The proposed model efficiently synthesizes phonological
phenomena in the test data that were not explicitly included in the training
data.
- Abstract(参考訳): テキストや音素の文字列から直接音声を生成するtts(end-to-end text-to-speech synthesis)は,従来のttsよりも音声合成の質を改善した。
しかし、従来の研究は主観的自然性に基づいて評価されており、日本語の構文構造を反映したダウンステップ、リズムアップ、初期低下といった音韻現象のピッチパターンを再現できるかどうかを客観的に検討していない。
これらの現象は音韻論的制約と構文$\unicode{x2013}$prosody mapping hypothesis (spmh) によって言語的に説明され、構文構造から音韻階層への射影を仮定する。
精神言語学のいくつかの実験では、SPMHの有効性が検証されているが、TSに実装できるかどうかを調べることが重要である。
統語的制約や音韻的制約を含む言語現象を合成するために,SPMHと韻律的健全性制約に基づく音韻記号を用いたモデルを提案する。
実験結果から,本手法は初期下降現象とリズミカル昇降現象について,言語実験で報告されたようなピッチパターンを合成した。
提案モデルは,学習データに明示的に含まれないテストデータ中の音韻現象を効率的に合成する。
関連論文リスト
- Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - Perception of Phonological Assimilation by Neural Speech Recognition Models [3.4173734484549625]
本稿では、ニューラルネットワーク認識モデルであるWav2Vec2が、同化音をどのように知覚するかを考察する。
心理言語学的刺激を用いて、様々な言語文脈がモデル出力の補償パターンにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2024-06-21T15:58:22Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - Prosody-controllable spontaneous TTS with neural HMMs [11.472325158964646]
小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。
本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
論文 参考訳(メタデータ) (2022-11-24T11:06:11Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit [39.258370942013165]
TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
論文 参考訳(メタデータ) (2020-08-13T02:54:50Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。