論文の概要: GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis
- arxiv url: http://arxiv.org/abs/2010.12423v3
- Date: Fri, 26 Mar 2021 13:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:19:58.663637
- Title: GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis
- Title(参考訳): GraphSpeech:ニューラル音声合成のための構文認識型グラフアテンションネットワーク
- Authors: Rui Liu, Berrak Sisman and Haizhou Li
- Abstract要約: Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 79.1885389845874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based end-to-end text-to-speech synthesis (TTS) is superior to
conventional statistical methods in many ways. Transformer-based TTS is one of
such successful implementations. While Transformer TTS models the speech frame
sequence well with a self-attention mechanism, it does not associate input text
with output utterances from a syntactic point of view at sentence level. We
propose a novel neural TTS model, denoted as GraphSpeech, that is formulated
under graph neural network framework. GraphSpeech encodes explicitly the
syntactic relation of input lexical tokens in a sentence, and incorporates such
information to derive syntactically motivated character embeddings for TTS
attention mechanism. Experiments show that GraphSpeech consistently outperforms
the Transformer TTS baseline in terms of spectrum and prosody rendering of
utterances.
- Abstract(参考訳): 注意に基づくエンドツーエンド音声合成(TTS)は,従来の統計手法よりも多くの点で優れている。
TransformerベースのTSは、そのような成功例の1つだ。
Transformer TTSは、音声フレームシーケンスと自己認識機構をうまくモデル化するが、入力テキストと文レベルでの構文的視点からの出力発話を関連付けない。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
GraphSpeechは、入力された語彙トークンの構文的関係を明確にエンコードし、これらの情報を組み込んで、TSアテンション機構のための構文的に動機付けられた文字埋め込みを導出する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの観点から、Transformer TTSベースラインを一貫して上回っていることが示された。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。
データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-31T09:37:27Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech [49.05471750563229]
文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-14T13:09:51Z) - GraphTTS: graph-to-sequence modelling in neural text-to-speech [34.54061333255853]
本稿では,ニューラルテキスト・トゥ・音声(GraphTTS)におけるグラフ・ツー・シーケンス法を活用する。
入力シーケンスのグラフ埋め込みをスペクトログラムにマッピングする。
GraphTTSのエンコーダをグラフ補助エンコーダ(GAE)として適用することで、テキストの意味構造から韻律情報を分析することができる。
論文 参考訳(メタデータ) (2020-03-04T07:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。