論文の概要: GraphTTS: graph-to-sequence modelling in neural text-to-speech
- arxiv url: http://arxiv.org/abs/2003.01924v1
- Date: Wed, 4 Mar 2020 07:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 13:25:13.547580
- Title: GraphTTS: graph-to-sequence modelling in neural text-to-speech
- Title(参考訳): GraphTTS:ニューラルテキスト音声におけるグラフからシーケンスへのモデリング
- Authors: Aolan Sun, Jianzong Wang, Ning Cheng, Huayi Peng, Zhen Zeng, Jing Xiao
- Abstract要約: 本稿では,ニューラルテキスト・トゥ・音声(GraphTTS)におけるグラフ・ツー・シーケンス法を活用する。
入力シーケンスのグラフ埋め込みをスペクトログラムにマッピングする。
GraphTTSのエンコーダをグラフ補助エンコーダ(GAE)として適用することで、テキストの意味構造から韻律情報を分析することができる。
- 参考スコア(独自算出の注目度): 34.54061333255853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper leverages the graph-to-sequence method in neural text-to-speech
(GraphTTS), which maps the graph embedding of the input sequence to
spectrograms. The graphical inputs consist of node and edge representations
constructed from input texts. The encoding of these graphical inputs
incorporates syntax information by a GNN encoder module. Besides, applying the
encoder of GraphTTS as a graph auxiliary encoder (GAE) can analyse prosody
information from the semantic structure of texts. This can remove the manual
selection of reference audios process and makes prosody modelling an end-to-end
procedure. Experimental analysis shows that GraphTTS outperforms the
state-of-the-art sequence-to-sequence models by 0.24 in Mean Opinion Score
(MOS). GAE can adjust the pause, ventilation and tones of synthesised audios
automatically. This experimental conclusion may give some inspiration to
researchers working on improving speech synthesis prosody.
- Abstract(参考訳): 本稿では、入力シーケンスのグラフ埋め込みをスペクトログラムにマッピングする、ニューラルテキスト音声(GraphTTS)におけるグラフ列法を利用する。
グラフィカル入力は、入力テキストから構築されたノードおよびエッジ表現で構成される。
これらのグラフィカル入力のエンコードには、GNNエンコーダモジュールによる構文情報が含まれる。
さらに、グラフ補助エンコーダ(GAE)としてGraphTTSのエンコーダを適用することで、テキストの意味構造から韻律情報を分析することができる。
これにより、参照オーディオプロセスの手動選択を取り除き、prosodyモデリングをエンドツーエンドの手順にすることができる。
実験分析により、GraphTTSは平均オピニオンスコア(MOS)において、最先端のシーケンス・ツー・シーケンスモデルよりも0.24向上していることが示された。
gaeは合成オーディオの一時停止、換気、音調を自動的に調整できる。
この実験的な結論は、音声合成の韻律改善に取り組んでいる研究者にインスピレーションを与えるかもしれない。
関連論文リスト
- Explanation Graph Generation via Generative Pre-training over Synthetic
Graphs [6.25568933262682]
説明グラフの生成は,ユーザの入力に応じて説明グラフを作成することを目的とした重要なタスクである。
現在の研究では、ラベル付きグラフで注釈付けされた小さな下流データセット上で、テキストベースの事前学習言語モデルを微調整するのが一般的である。
本稿では,説明グラフ生成タスクのための新しい事前学習フレームワークEG3Pを提案する。
論文 参考訳(メタデータ) (2023-06-01T13:20:22Z) - KENGIC: KEyword-driven and N-Gram Graph based Image Captioning [0.988326119238361]
キーワード駆動とN-gramグラフを用いた画像キャプション(KENGIC)
モデルは、与えられたテキストコーパスにあるように、重なり合うn-gramを通してノードを接続することで、有向グラフを形成するように設計されている。
このアプローチの分析は、ペア環境で訓練された現在のトップ実行キャプションジェネレータの背後にある生成プロセスにも光を当てることができた。
論文 参考訳(メタデータ) (2023-02-07T19:48:55Z) - Graph-to-Text Generation with Dynamic Structure Pruning [19.37474618180399]
入力グラフ表現条件を新たに生成したコンテキストに再エンコードする構造認識型クロスアテンション(SACA)機構を提案する。
LDC 2020T02 と ENT-DESC の2つのグラフ・トゥ・テキスト・データセットに対して,計算コストをわずかに増加させるだけで,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2022-09-15T12:48:10Z) - Learning Graphon Autoencoders for Generative Graph Modeling [91.32624399902755]
Graphonは任意のサイズでグラフを生成する非パラメトリックモデルであり、グラフから簡単に誘導できる。
解析可能でスケーラブルなグラフ生成モデルを構築するために,textitgraphon autoencoder という新しいフレームワークを提案する。
線形グルーポン分解モデルはデコーダとして機能し、潜在表現を活用して誘導されたグルーポンを再構成する。
論文 参考訳(メタデータ) (2021-05-29T08:11:40Z) - Structural Information Preserving for Graph-to-Text Generation [59.00642847499138]
グラフ・トゥ・テキスト生成の課題は、入力グラフの意味を保存した文を生成することである。
入力情報を保存するためのモデルとして,より豊かなトレーニング信号を活用することで,この問題に取り組むことを提案する。
グラフからテキストへの生成のための2つのベンチマークに関する実験は、最先端のベースラインに対するアプローチの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:01Z) - Promoting Graph Awareness in Linearized Graph-to-Text Generation [72.83863719868364]
局所グラフ構造を符号化する線形化モデルの能力を検討する。
本研究は,モデルの暗黙のグラフ符号化の品質を高めるための解法である。
これらの消音足場は、低リソース設定における下流生成の大幅な改善につながることが分かりました。
論文 参考訳(メタデータ) (2020-12-31T18:17:57Z) - GraphPB: Graphical Representations of Prosody Boundary in Speech
Synthesis [23.836992815219904]
本稿では,中国語音声合成作業における韻律境界(GraphPB)のグラフィカルな表現手法を提案する。
グラフ埋め込みのノードは韻律語で形成され、エッジは他の韻律境界によって形成される。
逐次情報をグラフ・ツー・シーケンス・テキスト・音声モデルに組み込む2つの手法が提案されている。
論文 参考訳(メタデータ) (2020-12-03T03:34:05Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - Graph-to-Sequence Neural Machine Translation [79.0617920270817]
グラフ変換器(Graph-Transformer)と呼ばれるグラフベースのSANベースのNMTモデルを提案する。
サブグラフは順番に応じて異なるグループに分類され、各サブグラフは単語間の依存度をそれぞれ異なるレベルに反映する。
提案手法は,WMT14ドイツ語データセットの1.1BLEU点,IWSLT14ドイツ語データセットの1.0BLEU点の改善により,トランスフォーマーを効果的に向上させることができる。
論文 参考訳(メタデータ) (2020-09-16T06:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。