論文の概要: RWEN-TTS: Relation-aware Word Encoding Network for Natural
Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2212.07939v1
- Date: Thu, 15 Dec 2022 16:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:15:23.213859
- Title: RWEN-TTS: Relation-aware Word Encoding Network for Natural
Text-to-Speech Synthesis
- Title(参考訳): RWEN-TTS:自然音声合成のための関係認識型単語符号化ネットワーク
- Authors: Shinhyeok Oh, HyeongRae Noh, Yoonseok Hong, Insoo Oh
- Abstract要約: 膨大な数のTTSモデルが人間のような音声を生成する。
リレーショナル・アウェア・ワード・ネットワーク(RWEN)は,2つのモジュールをベースとした統語的・意味的情報を実現する。
実験結果から, 前作に比べて大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 3.591224588041813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of deep learning, a huge number of text-to-speech (TTS)
models which produce human-like speech have emerged. Recently, by introducing
syntactic and semantic information w.r.t the input text, various approaches
have been proposed to enrich the naturalness and expressiveness of TTS models.
Although these strategies showed impressive results, they still have some
limitations in utilizing language information. First, most approaches only use
graph networks to utilize syntactic and semantic information without
considering linguistic features. Second, most previous works do not explicitly
consider adjacent words when encoding syntactic and semantic information, even
though it is obvious that adjacent words are usually meaningful when encoding
the current word. To address these issues, we propose Relation-aware Word
Encoding Network (RWEN), which effectively allows syntactic and semantic
information based on two modules (i.e., Semantic-level Relation Encoding and
Adjacent Word Relation Encoding). Experimental results show substantial
improvements compared to previous works.
- Abstract(参考訳): 深層学習の出現に伴い、人間に似た音声を生成するTTS(text-to-speech)モデルが多数出現している。
近年,入力テキストに構文情報や意味情報を導入することで,TSモデルの自然性や表現性を高めるための様々なアプローチが提案されている。
これらの戦略は印象的な結果を示したが、言語情報の利用にはいくつかの制限がある。
第一に、ほとんどのアプローチは、言語的特徴を考慮せずに構文的および意味的情報を利用するグラフネットワークのみを使用する。
第二に、ほとんどの先行研究は、構文的・意味的情報をエンコーディングする際に、隣り合う単語を明示的に考慮していないが、隣り合う単語が現在の単語をエンコーディングする場合に通常意味を持つことは明らかである。
これらの問題に対処するために,2つのモジュール(セマンティックレベルの関係エンコーディングと隣接語関係エンコーディング)に基づく統語的・意味的な情報を実現するRWEN(Relation-aware Word Encoding Network)を提案する。
実験の結果,前作に比べて大幅に改善が見られた。
関連論文リスト
- Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation [53.97155730116369]
我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-20T08:19:05Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - More Romanian word embeddings from the RETEROM project [0.0]
単語埋め込み」は、単語のベクトル表現を自動的に学習する。
使用可能な単語埋め込みセットをオープンアクセス可能な大規模ライブラリを開発する計画である。
論文 参考訳(メタデータ) (2021-11-21T06:05:12Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech [49.05471750563229]
文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-14T13:09:51Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。