論文の概要: Emotion Selectable End-to-End Text-based Speech Editing
- arxiv url: http://arxiv.org/abs/2212.10191v1
- Date: Tue, 20 Dec 2022 12:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:38:00.190223
- Title: Emotion Selectable End-to-End Text-based Speech Editing
- Title(参考訳): 感情選択可能なエンドツーエンドテキストに基づく音声編集
- Authors: Tao Wang, Jiangyan Yi, Ruibo Fu, Jianhua Tao, Zhengqi Wen, Chu Yuan
Zhang
- Abstract要約: Emo-CampNet (Emotion CampNet) は感情選択可能なテキストベースの音声編集モデルである。
テキストベースの音声編集において、生成した音声の感情を効果的に制御することができる。
未知の話者のスピーチを編集することもできる。
- 参考スコア(独自算出の注目度): 63.346825713704625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based speech editing allows users to edit speech by intuitively cutting,
copying, and pasting text to speed up the process of editing speech. In the
previous work, CampNet (context-aware mask prediction network) is proposed to
realize text-based speech editing, significantly improving the quality of
edited speech. This paper aims at a new task: adding emotional effect to the
editing speech during the text-based speech editing to make the generated
speech more expressive. To achieve this task, we propose Emo-CampNet (emotion
CampNet), which can provide the option of emotional attributes for the
generated speech in text-based speech editing and has the one-shot ability to
edit unseen speakers' speech. Firstly, we propose an end-to-end
emotion-selectable text-based speech editing model. The key idea of the model
is to control the emotion of generated speech by introducing additional emotion
attributes based on the context-aware mask prediction network. Secondly, to
prevent the emotion of the generated speech from being interfered by the
emotional components in the original speech, a neutral content generator is
proposed to remove the emotion from the original speech, which is optimized by
the generative adversarial framework. Thirdly, two data augmentation methods
are proposed to enrich the emotional and pronunciation information in the
training set, which can enable the model to edit the unseen speaker's speech.
The experimental results that 1) Emo-CampNet can effectively control the
emotion of the generated speech in the process of text-based speech editing;
And can edit unseen speakers' speech. 2) Detailed ablation experiments further
prove the effectiveness of emotional selectivity and data augmentation methods.
The demo page is available at https://hairuo55.github.io/Emo-CampNet/
- Abstract(参考訳): テキストベースの音声編集により、ユーザーは直感的にテキストをカット、コピー、ペーストすることで音声を編集できる。
先行研究では,テキストに基づく音声編集を実現するために,campnet (context-aware mask prediction network) を提案する。
本稿では,テキストベースの音声編集中に音声編集に感情的効果を加えることで,生成音声をより表現力良くすることを目的とする。
この課題を達成するために,テキストベースの音声編集において生成した音声に対する感情属性のオプションを提供するEmo-CampNet(emotion CampNet)を提案する。
まず,感情選択可能なテキストベース音声編集モデルを提案する。
このモデルの主な考え方は、文脈認識マスク予測ネットワークに基づく追加の感情属性を導入することにより、生成された音声の感情を制御することである。
第2に、生成した音声の感情が原音声の感情成分に干渉することを防止するために、中性コンテンツ生成装置が提案され、生成敵フレームワークにより最適化された原音声から感情を除去する。
第3に、トレーニングセットにおける感情情報と発音情報を豊かにするために、2つのデータ拡張手法を提案する。
実験の結果は
1)Emo-CampNetはテキストベース音声編集の過程で生成した音声の感情を効果的に制御し,未知話者の音声を編集することができる。
2) 詳細なアブレーション実験により, 感情選択性およびデータ拡張法の有効性がさらに証明された。
デモページはhttps://hairuo55.github.io/emo-campnet/で入手できる。
関連論文リスト
- EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech [0.0]
最先端の音声モデルは、人間の声にできるだけ近づこうとしている。
感情をモデル化することは、Text-To-Speech (TTS) 研究の不可欠な部分である。
EmoSpeechは、生成された音声におけるMOSスコアと感情認識の精度に関する既存のモデルを上回る。
論文 参考訳(メタデータ) (2023-06-28T19:34:16Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。
提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文 参考訳(メタデータ) (2021-11-07T08:52:04Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。