論文の概要: Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal
- arxiv url: http://arxiv.org/abs/2012.06971v1
- Date: Sun, 13 Dec 2020 05:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:47:23.386408
- Title: Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal
- Title(参考訳): 構文解析を用いたニューラルネットワークを用いたTSの構文表現学習
- Authors: Changhe Song, Jingbei Li, Yixuan Zhou, Zhiyong Wu, Helen Meng
- Abstract要約: 本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
- 参考スコア(独自算出の注目度): 49.05471750563229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Syntactic structure of a sentence text is correlated with the prosodic
structure of the speech that is crucial for improving the prosody and
naturalness of a text-to-speech (TTS) system. Nowadays TTS systems usually try
to incorporate syntactic structure information with manually designed features
based on expert knowledge. In this paper, we propose a syntactic representation
learning method based on syntactic parse tree traversal to automatically
utilize the syntactic structure information. Two constituent label sequences
are linearized through left-first and right-first traversals from constituent
parse tree. Syntactic representations are then extracted at word level from
each constituent label sequence by a corresponding uni-directional gated
recurrent unit (GRU) network. Meanwhile, nuclear-norm maximization loss is
introduced to enhance the discriminability and diversity of the embeddings of
constituent labels. Upsampled syntactic representations and phoneme embeddings
are concatenated to serve as the encoder input of Tacotron2. Experimental
results demonstrate the effectiveness of our proposed approach, with mean
opinion score (MOS) increasing from 3.70 to 3.82 and ABX preference exceeding
by 17% compared with the baseline. In addition, for sentences with multiple
syntactic parse trees, prosodic differences can be clearly perceived from the
synthesized speeches.
- Abstract(参考訳): 文テキストの構文構造は、音声の韻律構造と相関し、テキスト音声(TTS)システムの韻律と自然性を改善するのに不可欠である。
現在、TSシステムは通常、専門家の知識に基づいて手動で設計された機能に構文構造情報を組み込もうとしている。
本稿では,構文解析木トラバーサルに基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
2つの構成ラベル配列は、構成構文木から左第一および右第一トラバーサルを介して線形化される。
そして、対応する一方向ゲートリカレントユニット(GRU)ネットワークにより、各構成ラベルシーケンスから単語レベルで構文表現を抽出する。
一方, 核ノルム最大化損失は, 成分ラベルの識別性と多様性を高めるために導入された。
アップサンプリング構文表現と音素埋め込みは、タコトロン2のエンコーダ入力として結合される。
その結果,提案手法の有効性が示され,平均世論スコア(MOS)は3.70から3.82に増加し,ABX選好はベースラインに比べて17%以上増加した。
さらに,複数の構文解析木を持つ文に対しては,合成音声から韻律的差異を明瞭に認識することができる。
関連論文リスト
- Syntactic Complexity Identification, Measurement, and Reduction Through
Controlled Syntactic Simplification [0.0]
本稿では,複合文と複合文を簡易文の集合に分割・言い換える,古典的な構文的依存性に基づく手法を提案する。
また,文の構文的複雑さを同定し,測定するアルゴリズムも導入した。
この研究は、WSDM-2023 Conferenceにおいて、Learning with Knowledge Graphs (IWLKG) に関する国際ワークショップで受け入れられ、発表された。
論文 参考訳(メタデータ) (2023-04-16T13:13:58Z) - Syntactic Structure Processing in the Brain while Listening [3.735055636181383]
一般的な構文解析方法は2つある。
最近の研究は、脳の言語ネットワークにおける構文構造がどのように表現されているかを研究するために、脳活動予測のための選択木、インクリメンタルトップダウン解析、その他の単語構文的特徴に基づく構文的埋め込みを用いている。
筆者らは,脳のコード化モデルの予測能力について, (i) 選択性および依存性構文解析に基づく埋め込み法の性能, (ii) 基本構文信号の制御におけるこれらの構文解析に基づく埋め込み法の有効性, (iii) 制御時の各シナティクス埋め込み法の相対的効果の3つの設定で検討した。
論文 参考訳(メタデータ) (2023-02-16T21:28:11Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Syntactic Perturbations Reveal Representational Correlates of
Hierarchical Phrase Structure in Pretrained Language Models [22.43510769150502]
文レベルの構文のどの側面がベクターベースの言語表現によってキャプチャされるのかは、完全には分かっていない。
このプロセスでは,トランスフォーマーが文のより大きな部分の層に感性を持たせることが示され,階層的な句構造が重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-04-15T16:30:31Z) - Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech [49.05471750563229]
文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-14T13:09:51Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z) - Representations of Syntax [MASK] Useful: Effects of Constituency and
Dependency Structure in Recursive LSTMs [26.983602540576275]
シーケンスベースのニューラルネットワークは、構文構造に対してかなりの感度を示すが、それでも木ベースのネットワークよりも構文上のタスクではうまく機能しない。
これら2つの表現スキームのどちらが構文構造に対するバイアスをより効果的に導入するかを評価する。
選挙区ネットワークは,依存性に基づくネットワークよりも強固に一般化し,これら2種類の構造を組み合わせることで,さらなる改善が得られないことを示す。
論文 参考訳(メタデータ) (2020-04-30T18:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。