論文の概要: Continuous Emotional Intensity Controllable Speech Synthesis using
Semi-supervised Learning
- arxiv url: http://arxiv.org/abs/2211.06160v1
- Date: Fri, 11 Nov 2022 12:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 17:20:52.382071
- Title: Continuous Emotional Intensity Controllable Speech Synthesis using
Semi-supervised Learning
- Title(参考訳): 半教師付き学習による連続的感情インテンシティ制御音声合成
- Authors: Yoori Oh, Juheon Lee, Yoseob Han, Kyogu Lee
- Abstract要約: 半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。
実験の結果,提案手法は制御性と自然性に優れていた。
- 参考スコア(独自算出の注目度): 16.524515747017787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of the speech synthesis system, recent
text-to-speech models have reached the level of generating natural speech
similar to what humans say. But there still have limitations in terms of
expressiveness. In particular, the existing emotional speech synthesis models
have shown controllability using interpolated features with scaling parameters
in emotional latent space. However, the emotional latent space generated from
the existing models is difficult to control the continuous emotional intensity
because of the entanglement of features like emotions, speakers, etc. In this
paper, we propose a novel method to control the continuous intensity of
emotions using semi-supervised learning. The model learns emotions of
intermediate intensity using pseudo-labels generated from phoneme-level
sequences of speech information. An embedding space built from the proposed
model satisfies the uniform grid geometry with an emotional basis. In addition,
to improve the naturalness of intermediate emotional speech, a discriminator is
applied to the generation of low-level elements like duration, pitch and
energy. The experimental results showed that the proposed method was superior
in controllability and naturalness. The synthesized speech samples are
available at https://tinyurl.com/34zaehh2
- Abstract(参考訳): 音声合成システムの急速な発展に伴い、近年の音声合成モデルは、人間が言うような自然な音声を生成するレベルに達している。
しかし、表現力の面ではまだ限界がある。
特に、既存の感情音声合成モデルは、感情的潜在空間におけるスケーリングパラメータを伴う補間特徴を用いた制御可能性を示している。
しかし,既存のモデルから生じる情緒的潜伏空間は,感情や話者などの特徴が絡み合っているため,連続的な情緒的強度を制御することは困難である。
本稿では,半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。
モデルは音声情報の音素レベルシーケンスから生成された擬似ラベルを用いて中間強度の感情を学習する。
提案モデルから構築した埋め込み空間は、一様格子形状を感情的に満足する。
さらに、中間感情音声の自然性を改善するために、時間、ピッチ、エネルギーなどの低レベル要素の生成に判別器を適用した。
実験の結果,提案手法は制御性と自然性に優れていた。
合成音声サンプルはhttps://tinyurl.com/34zaeh2で入手できる。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z) - Cross-speaker Emotion Transfer by Manipulating Speech Style Latents [7.384726530165295]
本稿では,潜在型空間におけるベクトル演算を用いた話者間感情伝達と操作のための新しい手法を提案する。
少数のラベル付きサンプルを活用することで、話者のアイデンティティを損なうことなく、読み上げスタイルの音声から感情的な音声を生成する。
論文 参考訳(メタデータ) (2023-03-15T02:34:03Z) - Fine-grained Emotional Control of Text-To-Speech: Learning To Rank
Inter- And Intra-Class Emotion Intensities [1.4986031916712106]
State-of-the-art Text-To-Speech (TTS)モデルは高品質な音声を生成することができる。
本稿では,クラス間距離とクラス内距離の両方を考慮した,きめ細かい制御可能な感情的TSを提案する。
我々の実験は、制御性、感情、自然性の2つの最先端制御可能なTSモデルを超えることを示した。
論文 参考訳(メタデータ) (2023-03-02T09:09:03Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。