論文の概要: GraphPB: Graphical Representations of Prosody Boundary in Speech
Synthesis
- arxiv url: http://arxiv.org/abs/2012.02626v1
- Date: Thu, 3 Dec 2020 03:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 14:46:18.146194
- Title: GraphPB: Graphical Representations of Prosody Boundary in Speech
Synthesis
- Title(参考訳): GraphPB:音声合成における韻律境界のグラフ表現
- Authors: Aolan Sun, Jianzong Wang, Ning Cheng, Huayi Peng, Zhen Zeng, Lingwei
Kong, Jing Xiao
- Abstract要約: 本稿では,中国語音声合成作業における韻律境界(GraphPB)のグラフィカルな表現手法を提案する。
グラフ埋め込みのノードは韻律語で形成され、エッジは他の韻律境界によって形成される。
逐次情報をグラフ・ツー・シーケンス・テキスト・音声モデルに組み込む2つの手法が提案されている。
- 参考スコア(独自算出の注目度): 23.836992815219904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a graphical representation approach of prosody boundary
(GraphPB) in the task of Chinese speech synthesis, intending to parse the
semantic and syntactic relationship of input sequences in a graphical domain
for improving the prosody performance. The nodes of the graph embedding are
formed by prosodic words, and the edges are formed by the other prosodic
boundaries, namely prosodic phrase boundary (PPH) and intonation phrase
boundary (IPH). Different Graph Neural Networks (GNN) like Gated Graph Neural
Network (GGNN) and Graph Long Short-term Memory (G-LSTM) are utilised as graph
encoders to exploit the graphical prosody boundary information.
Graph-to-sequence model is proposed and formed by a graph encoder and an
attentional decoder. Two techniques are proposed to embed sequential
information into the graph-to-sequence text-to-speech model. The experimental
results show that this proposed approach can encode the phonetic and prosody
rhythm of an utterance. The mean opinion score (MOS) of these GNN models shows
comparative results with the state-of-the-art sequence-to-sequence models with
better performance in the aspect of prosody. This provides an alternative
approach for prosody modelling in end-to-end speech synthesis.
- Abstract(参考訳): 本稿では,中国語音声合成作業における韻律境界(GraphPB)のグラフィカルな表現手法を提案する。
グラフ埋め込みのノードは韻律語で形成され、エッジは他の韻律境界、すなわち韻律句境界(PPH)とイントネーション句境界(IPH)によって形成される。
Ged Graph Neural Network (GGNN) や Graph Long Short-Term Memory (G-LSTM) のようなグラフニューラルネットワーク(GNN) はグラフエンコーダとして使われ、グラフィカルな韻律境界情報を利用する。
グラフ列モデルを提案し,グラフエンコーダと注意デコーダによって構成する。
逐次情報をgraph-to-sequence text-to-speechモデルに埋め込むための2つの手法を提案する。
実験の結果,提案手法は発話の音韻リズムと韻律リズムを符号化できることがわかった。
これらのGNNモデルの平均世論スコア(MOS)は、韻律的側面においてより優れた性能を有する最先端のシーケンス・ツー・シーケンスモデルと比較結果を示す。
これは、エンドツーエンド音声合成における韻律モデリングの代替アプローチを提供する。
関連論文リスト
- From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - Message Detouring: A Simple Yet Effective Cycle Representation for
Expressive Graph Learning [4.085624738017079]
グラフ全体のサイクル表現を階層的に特徴付けるために,テキストデツーリングの概念を導入する。
メッセージのデツーリングは、さまざまなベンチマークデータセットにおいて、現在の競合するアプローチを大幅に上回る可能性がある。
論文 参考訳(メタデータ) (2024-02-12T22:06:37Z) - Text Enriched Sparse Hyperbolic Graph Convolutional Networks [21.83127488157701]
グラフニューラルネットワーク(GNN)とその双曲型は、そのようなネットワークを低次元の潜在空間でエンコードするための有望なアプローチを提供する。
本稿では,グラフのメタパス構造を意味信号を用いて捉えるために,テキスト強化スパースハイパーボリックグラフ畳み込みネットワーク(TESH-GCN)を提案する。
我々のモデルは,リンク予測のタスクにおいて,最先端のアプローチよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-06T00:23:35Z) - Graph Condensation via Receptive Field Distribution Matching [61.71711656856704]
本稿では,元のグラフを表す小さなグラフの作成に焦点をあてる。
我々は、元のグラフを受容体の分布とみなし、受容体が同様の分布を持つ小さなグラフを合成することを目的としている。
論文 参考訳(メタデータ) (2022-06-28T02:10:05Z) - Towards Graph Self-Supervised Learning with Contrastive Adjusted Zooming [48.99614465020678]
本稿では,グラフコントラスト適応ズームによる自己教師付きグラフ表現学習アルゴリズムを提案する。
このメカニズムにより、G-Zoomはグラフから複数のスケールから自己超越信号を探索して抽出することができる。
我々は,実世界のデータセットに関する広範な実験を行い,提案したモデルが常に最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-20T22:45:53Z) - A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。
AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。
本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文 参考訳(メタデータ) (2021-05-22T07:05:48Z) - GraphSVX: Shapley Value Explanations for Graph Neural Networks [81.83769974301995]
グラフニューラルネットワーク(GNN)は、幾何データに基づく様々な学習タスクにおいて大きな性能を発揮する。
本稿では,既存のGNN解説者の多くが満足する統一フレームワークを提案する。
GNN用に特別に設計されたポストホックローカルモデル非依存説明法であるGraphSVXを紹介します。
論文 参考訳(メタデータ) (2021-04-18T10:40:37Z) - Neural Topic Modeling by Incorporating Document Relationship Graph [18.692100955163713]
グラフトピックモデル(GTM)は、コーパスを文書関係グラフとして表現したGNNベースのニューラルトピックモデルである。
コーパス内の文書と単語はグラフ内のノードとなり、文書と単語の共起に基づいて接続される。
論文 参考訳(メタデータ) (2020-09-29T12:45:55Z) - Compact Graph Architecture for Speech Emotion Recognition [0.0]
データを表現するコンパクトで効率的でスケーラブルな方法は、グラフの形式です。
グラフ畳み込みネットワーク(GCN)ベースのアーキテクチャを構築し,正確なグラフ畳み込みを実現する。
我々のモデルは、学習可能なパラメータが著しく少ない最先端のモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2020-08-05T12:09:09Z) - Graph Pooling with Node Proximity for Hierarchical Representation
Learning [80.62181998314547]
本稿では,ノード近接を利用したグラフプーリング手法を提案し,そのマルチホップトポロジを用いたグラフデータの階層的表現学習を改善する。
その結果,提案したグラフプーリング戦略は,公開グラフ分類ベンチマークデータセットの集合において,最先端のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2020-06-19T13:09:44Z) - GraphTTS: graph-to-sequence modelling in neural text-to-speech [34.54061333255853]
本稿では,ニューラルテキスト・トゥ・音声(GraphTTS)におけるグラフ・ツー・シーケンス法を活用する。
入力シーケンスのグラフ埋め込みをスペクトログラムにマッピングする。
GraphTTSのエンコーダをグラフ補助エンコーダ(GAE)として適用することで、テキストの意味構造から韻律情報を分析することができる。
論文 参考訳(メタデータ) (2020-03-04T07:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。