Fugu-MT 論文翻訳(概要): Applying Syntax$\unicode{x2013}$Prosody Mapping Hypothesis and Prosodic Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis

論文の概要: Applying Syntax$\unicode{x2013}$Prosody Mapping Hypothesis and Prosodic Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis

arxiv url: http://arxiv.org/abs/2203.15276v1
Date: Tue, 29 Mar 2022 06:45:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-30 16:40:05.600967
Title: Applying Syntax$\unicode{x2013}$Prosody Mapping Hypothesis and Prosodic Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis
Title（参考訳）: 構文$\unicode{x2013}$prosody mapping hypothesis と韻律的 well-formedness constraints のニューラルネットワーク合成への応用
Authors: Kei Furukawa, Takeshi Kishiyama, and Satoshi Nakamura
Abstract要約: エンドツーエンドのテキスト音声(TTS)は、テキストや音素の文字列から直接音声を生成する。本研究は,音韻的制約に基づき,リズミカル言語学を再現できるかどうかを考察する。学習データに明示的に含まれていない試験データ中の音韻現象を効率よく合成するモデルを提案する。
参考スコア（独自算出の注目度）: 7.609330016848916
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end text-to-speech synthesis (TTS), which generates speech sounds directly from strings of texts or phonemes, has improved the quality of speech synthesis over the conventional TTS. However, most previous studies have been evaluated based on subjective naturalness and have not objectively examined whether they can reproduce pitch patterns of phonological phenomena such as downstep, rhythmic boost, and initial lowering that reflect syntactic structures in Japanese. These phenomena can be linguistically explained by phonological constraints and the syntax$\unicode{x2013}$prosody mapping hypothesis (SPMH), which assumes projections from syntactic structures to phonological hierarchy. Although some experiments in psycholinguistics have verified the validity of the SPMH, it is crucial to investigate whether it can be implemented in TTS. To synthesize linguistic phenomena involving syntactic or phonological constraints, we propose a model using phonological symbols based on the SPMH and prosodic well-formedness constraints. Experimental results showed that the proposed method synthesized similar pitch patterns to those reported in linguistics experiments for the phenomena of initial lowering and rhythmic boost. The proposed model efficiently synthesizes phonological phenomena in the test data that were not explicitly included in the training data.
Abstract（参考訳）: テキストや音素の文字列から直接音声を生成するtts(end-to-end text-to-speech synthesis)は,従来のttsよりも音声合成の質を改善した。しかし、従来の研究は主観的自然性に基づいて評価されており、日本語の構文構造を反映したダウンステップ、リズムアップ、初期低下といった音韻現象のピッチパターンを再現できるかどうかを客観的に検討していない。これらの現象は音韻論的制約と構文$\unicode{x2013}$prosody mapping hypothesis (spmh) によって言語的に説明され、構文構造から音韻階層への射影を仮定する。精神言語学のいくつかの実験では、SPMHの有効性が検証されているが、TSに実装できるかどうかを調べることが重要である。統語的制約や音韻的制約を含む言語現象を合成するために,SPMHと韻律的健全性制約に基づく音韻記号を用いたモデルを提案する。実験結果から,本手法は初期下降現象とリズミカル昇降現象について,言語実験で報告されたようなピッチパターンを合成した。提案モデルは,学習データに明示的に含まれないテストデータ中の音韻現象を効率的に合成する。

関連論文リスト

The Impact of Prosodic Segmentation on Speech Synthesis of Spontaneous Speech [2.9762955286006965]
韻律的セグメンテーションによる訓練は、より分かりやすく、音響的に自然な音声を生み出した。将来の研究をサポートするため、すべてのデータセット、ソースコード、訓練されたモデルはCC BY-NC-ND 4.0ライセンスの下で公開されている。
論文参考訳（メタデータ） (2025-11-06T14:49:06Z)
Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文参考訳（メタデータ） (2024-07-18T13:42:38Z)
Perception of Phonological Assimilation by Neural Speech Recognition Models [3.4173734484549625]
本稿では、ニューラルネットワーク認識モデルであるWav2Vec2が、同化音をどのように知覚するかを考察する。心理言語学的刺激を用いて、様々な言語文脈がモデル出力の補償パターンにどのように影響するかを分析する。
論文参考訳（メタデータ） (2024-06-21T15:58:22Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文参考訳（メタデータ） (2023-06-01T14:07:19Z)
Prosody-controllable spontaneous TTS with neural HMMs [11.472325158964646]
小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
論文参考訳（メタデータ） (2022-11-24T11:06:11Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文参考訳（メタデータ） (2021-10-04T02:03:28Z)
Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文参考訳（メタデータ） (2020-11-12T16:16:41Z)
Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit [39.258370942013165]
TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
論文参考訳（メタデータ） (2020-08-13T02:54:50Z)
Constructing a Family Tree of Ten Indo-European Languages with Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文参考訳（メタデータ） (2020-07-17T15:56:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。