Fugu-MT 論文翻訳(概要): EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech

論文の概要: EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech

arxiv url: http://arxiv.org/abs/2406.07803v2
Date: Mon, 04 Nov 2024 21:39:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.512534
Title: EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech
Title（参考訳）: EmoSphere-TTS:制御可能な感情テキスト音声のための球形感情ベクトルによる感情スタイルと強度モデリング
Authors: Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim, Sang-Hoon Lee, Seong-Whan Lee,
Abstract要約: EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
参考スコア（独自算出の注目度）: 34.03787613163788
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite rapid advances in the field of emotional text-to-speech (TTS), recent studies primarily focus on mimicking the average style of a particular emotion. As a result, the ability to manipulate speech emotion remains constrained to several predefined labels, compromising the ability to reflect the nuanced variations of emotion. In this paper, we propose EmoSphere-TTS, which synthesizes expressive emotional speech by using a spherical emotion vector to control the emotional style and intensity of the synthetic speech. Without any human annotation, we use the arousal, valence, and dominance pseudo-labels to model the complex nature of emotion via a Cartesian-spherical transformation. Furthermore, we propose a dual conditional adversarial network to improve the quality of generated speech by reflecting the multi-aspect characteristics. The experimental results demonstrate the model ability to control emotional style and intensity with high-quality expressive speech.
Abstract（参考訳）: 感情テキスト音声(TTS)の分野での急速な進歩にもかかわらず、近年の研究は主に特定の感情の平均的なスタイルを模倣することに焦点を当てている。その結果、音声の感情を操作する能力は、いくつかの事前定義されたラベルに制約され、感情のニュアンスなバリエーションを反映する能力が向上した。本稿では,球面感情ベクトルを用いて表現的感情音声を合成し,合成音声の感情スタイルと強度を制御するEmoSphere-TTSを提案する。人間のアノテーションがなければ、私たちは、カルト・球面変換を通じて感情の複雑な性質をモデル化するために、覚醒、原子価、支配的な擬似ラベルを使用します。さらに,マルチアスペクト特性を反映して生成した音声の品質を向上する2つの条件付き対向ネットワークを提案する。実験結果は,高品質な表現音声で感情のスタイルや強度を制御できるモデル能力を示す。

関連論文リスト

EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。 EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-28T10:02:06Z)
Prompt-Unseen-Emotion: Zero-shot Expressive Speech Synthesis with Prompt-LLM Contextual Knowledge for Mixed Emotions [38.122477830163255]
本稿では,感情誘導型プロンプト学習による未知の感情音声を生成するための,新しいプロンプト・アンザイム・感情(PUE)アプローチを提案する。提案したPUEは、ゼロショット設定における未知の感情の表現的音声合成に成功している。
論文参考訳（メタデータ） (2025-06-03T10:59:22Z)
UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文参考訳（メタデータ） (2025-05-15T12:57:19Z)
EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文参考訳（メタデータ） (2024-11-04T21:33:56Z)
EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control [7.596581158724187]
EmoKnob(エモノブ)は、任意の感情の少数の実証的なサンプルを用いて、音声合成におけるきめ細かい感情制御を可能にするフレームワークである。我々の感情制御フレームワークは、音声に感情を効果的に埋め込んで、商用TTSサービスの感情表現性を超越していることを示す。
論文参考訳（メタデータ） (2024-10-01T01:29:54Z)
Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の全スペクトルを伝達する上で困難に直面している。本稿では,3つの感情的次元 – 快楽,覚醒,支配 – に対してフレキシブルなユーザコントロールを提供するTTSフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-25T07:16:16Z)
UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。 EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。 EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文参考訳（メタデータ） (2024-04-29T03:19:39Z)
Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition [12.605375307094416]
構造モデルに基づく感情の幅広いスペクトルをシミュレートする感情的テキスト・音声設計を提案する。提案したデザインであるDaisy-TTSは、感情のプロキシとして感情的に分離可能な韻律埋め込みを学習するための韻律エンコーダを組み込んでいる。
論文参考訳（メタデータ） (2024-02-22T13:15:49Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文参考訳（メタデータ） (2023-08-16T06:28:29Z)
Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文参考訳（メタデータ） (2022-08-11T15:45:58Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文参考訳（メタデータ） (2021-06-17T08:34:21Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。