論文の概要: Applying Syntax$\unicode{x2013}$Prosody Mapping Hypothesis and Prosodic
Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis
- arxiv url: http://arxiv.org/abs/2203.15276v1
- Date: Tue, 29 Mar 2022 06:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:40:05.600967
- Title: Applying Syntax$\unicode{x2013}$Prosody Mapping Hypothesis and Prosodic
Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis
- Title(参考訳): 構文$\unicode{x2013}$prosody mapping hypothesis と韻律的 well-formedness constraints のニューラルネットワーク合成への応用
- Authors: Kei Furukawa, Takeshi Kishiyama, and Satoshi Nakamura
- Abstract要約: エンドツーエンドのテキスト音声(TTS)は、テキストや音素の文字列から直接音声を生成する。
本研究は,音韻的制約に基づき,リズミカル言語学を再現できるかどうかを考察する。
学習データに明示的に含まれていない試験データ中の音韻現象を効率よく合成するモデルを提案する。
- 参考スコア(独自算出の注目度): 7.609330016848916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end text-to-speech synthesis (TTS), which generates speech sounds
directly from strings of texts or phonemes, has improved the quality of speech
synthesis over the conventional TTS. However, most previous studies have been
evaluated based on subjective naturalness and have not objectively examined
whether they can reproduce pitch patterns of phonological phenomena such as
downstep, rhythmic boost, and initial lowering that reflect syntactic
structures in Japanese. These phenomena can be linguistically explained by
phonological constraints and the syntax$\unicode{x2013}$prosody mapping
hypothesis (SPMH), which assumes projections from syntactic structures to
phonological hierarchy. Although some experiments in psycholinguistics have
verified the validity of the SPMH, it is crucial to investigate whether it can
be implemented in TTS. To synthesize linguistic phenomena involving syntactic
or phonological constraints, we propose a model using phonological symbols
based on the SPMH and prosodic well-formedness constraints. Experimental
results showed that the proposed method synthesized similar pitch patterns to
those reported in linguistics experiments for the phenomena of initial lowering
and rhythmic boost. The proposed model efficiently synthesizes phonological
phenomena in the test data that were not explicitly included in the training
data.
- Abstract(参考訳): テキストや音素の文字列から直接音声を生成するtts(end-to-end text-to-speech synthesis)は,従来のttsよりも音声合成の質を改善した。
しかし、従来の研究は主観的自然性に基づいて評価されており、日本語の構文構造を反映したダウンステップ、リズムアップ、初期低下といった音韻現象のピッチパターンを再現できるかどうかを客観的に検討していない。
これらの現象は音韻論的制約と構文$\unicode{x2013}$prosody mapping hypothesis (spmh) によって言語的に説明され、構文構造から音韻階層への射影を仮定する。
精神言語学のいくつかの実験では、SPMHの有効性が検証されているが、TSに実装できるかどうかを調べることが重要である。
統語的制約や音韻的制約を含む言語現象を合成するために,SPMHと韻律的健全性制約に基づく音韻記号を用いたモデルを提案する。
実験結果から,本手法は初期下降現象とリズミカル昇降現象について,言語実験で報告されたようなピッチパターンを合成した。
提案モデルは,学習データに明示的に含まれないテストデータ中の音韻現象を効率的に合成する。
関連論文リスト
- Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - Prosody-controllable spontaneous TTS with neural HMMs [11.472325158964646]
小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。
本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
論文 参考訳(メタデータ) (2022-11-24T11:06:11Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit [39.258370942013165]
TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
論文 参考訳(メタデータ) (2020-08-13T02:54:50Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。