論文の概要: Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech
- arxiv url: http://arxiv.org/abs/2104.06835v1
- Date: Wed, 14 Apr 2021 13:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:09:15.963508
- Title: Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech
- Title(参考訳): テキスト音声の表現性向上のためのグラフニューラルネットワークによる依存構文解析に基づく意味表現学習
- Authors: Yixuan Zhou, Changhe Song, Jingbei Li, Zhiyong Wu, Helen Meng
- Abstract要約: 文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 49.05471750563229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic information of a sentence is crucial for improving the
expressiveness of a text-to-speech (TTS) system, but can not be well learned
from the limited training TTS dataset just by virtue of the nowadays encoder
structures. As large scale pre-trained text representation develops,
bidirectional encoder representations from transformers (BERT) has been proven
to embody text-context semantic information and applied to TTS as additional
input. However BERT can not explicitly associate semantic tokens from point of
dependency relations in a sentence. In this paper, to enhance expressiveness,
we propose a semantic representation learning method based on graph neural
network, considering dependency relations of a sentence. Dependency graph of
input text is composed of edges from dependency tree structure considering both
the forward and the reverse directions. Semantic representations are then
extracted at word level by the relational gated graph network (RGGN) fed with
features from BERT as nodes input. Upsampled semantic representations and
character-level embeddings are concatenated to serve as the encoder input of
Tacotron-2. Experimental results show that our proposed method outperforms the
baseline using vanilla BERT features both in LJSpeech and Bilzzard Challenge
2013 datasets, and semantic representations learned from the reverse direction
are more effective for enhancing expressiveness.
- Abstract(参考訳): 文の意味情報は、テキスト音声(TTS)システムの表現性を改善するために重要であるが、現代のエンコーダ構造のおかげで、限られた訓練TSデータセットから十分に学べない。
大規模に事前訓練されたテキスト表現が発達するにつれて、変換器(BERT)からの双方向エンコーダ表現がテキスト・コンテキスト意味情報を具現化し、追加入力としてTSに適用することが証明された。
しかしBERTは文内の依存関係から意味トークンを明示的に関連付けることはできない。
本稿では,表現性を高めるために,文の係り受け関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
入力テキストの依存性グラフは、前方方向と逆方向の両方を考慮した依存ツリー構造からのエッジで構成されている。
次に、関係ゲートグラフネットワーク(RGGN)によって単語レベルで意味表現を抽出し、BERTの機能をノード入力として入力する。
アップサンプル意味表現と文字レベルの埋め込みは、タコトロン-2のエンコーダ入力として結合される。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT 特徴を用いたベースラインよりも優れており,逆方向から学習した意味表現の方が表現力の向上に有効であることを示す。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - An Intelligent CNN-VAE Text Representation Technology Based on Text
Semantics for Comprehensive Big Data [15.680918844684454]
畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。
提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
論文 参考訳(メタデータ) (2020-08-28T07:39:45Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。