論文の概要: Towards Expressive Speaking Style Modelling with Hierarchical Context
Information for Mandarin Speech Synthesis
- arxiv url: http://arxiv.org/abs/2203.12201v1
- Date: Wed, 23 Mar 2022 05:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 16:32:48.714179
- Title: Towards Expressive Speaking Style Modelling with Hierarchical Context
Information for Mandarin Speech Synthesis
- Title(参考訳): マンダリン音声合成のための階層的文脈情報を用いた表現型発話スタイルモデリング
- Authors: Shun Lei, Yixuan Zhou, Liyang Chen, Zhiyong Wu, Shiyin Kang, Helen
Meng
- Abstract要約: 文脈から発話スタイルをモデル化するための階層的枠組みを提案する。
より広い範囲の文脈情報を調べるために,階層型コンテキストエンコーダを提案する。
このエンコーダがスタイル表現をより良く学習できるように、我々は新しいトレーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 37.93814851450597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works on expressive speech synthesis mainly focus on current
sentence. The context in adjacent sentences is neglected, resulting in
inflexible speaking style for the same text, which lacks speech variations. In
this paper, we propose a hierarchical framework to model speaking style from
context. A hierarchical context encoder is proposed to explore a wider range of
contextual information considering structural relationship in context,
including inter-phrase and inter-sentence relations. Moreover, to encourage
this encoder to learn style representation better, we introduce a novel
training strategy with knowledge distillation, which provides the target for
encoder training. Both objective and subjective evaluations on a Mandarin
lecture dataset demonstrate that the proposed method can significantly improve
the naturalness and expressiveness of the synthesized speech.
- Abstract(参考訳): 表現型音声合成に関するこれまでの研究は、主に現在の文に焦点を当てている。
隣接する文の文脈は無視され、結果として同じテキストに対して柔軟性のない話し方となる。
本稿では,文脈から発話スタイルをモデル化する階層的枠組みを提案する。
文間関係や文間関係など,文脈の構造的関係を考慮したより広い範囲の文脈情報を調べるために,階層型コンテキストエンコーダを提案する。
さらに,このエンコーダがスタイル表現をよりよく学習できるようにするために,エンコーダトレーニングのターゲットとなる知識蒸留を用いた新しいトレーニング戦略を導入する。
マンダリン講義データセットの主観的および主観的評価は,提案手法が合成音声の自然性と表現性を著しく向上することを示した。
関連論文リスト
- Generative Adversarial Training for Text-to-Speech Synthesis Based on
Raw Phonetic Input and Explicit Prosody Modelling [0.36868085124383626]
生成的対角学習を用いたエンドツーエンド音声合成システムについて述べる。
音素・音素変換のためのVocoderを明示的な音韻・ピッチ・持続時間モデルを用いて訓練する。
論文 参考訳(メタデータ) (2023-10-14T18:15:51Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - Improve Discourse Dependency Parsing with Contextualized Representations [28.916249926065273]
本稿では,異なるレベルの単位の文脈化表現を符号化するトランスフォーマーの活用を提案する。
記事間で共通に共有される記述パターンの観察に動機付けられ,談話関係の識別をシーケンスラベリングタスクとして扱う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-04T14:35:38Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Contextual Modulation for Relation-Level Metaphor Identification [3.2619536457181075]
本稿では,ある文法的関係の関連レベルの比喩表現を識別するための新しいアーキテクチャを提案する。
視覚的推論の研究にインスパイアされた方法論では、我々のアプローチは、深い文脈化された特徴にニューラルネットワークの計算を条件付けすることに基づいている。
提案したアーキテクチャは,ベンチマークデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-12T12:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。