論文の概要: EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering
- arxiv url: http://arxiv.org/abs/2508.03543v2
- Date: Wed, 06 Aug 2025 06:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.411257
- Title: EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering
- Title(参考訳): EmoSteer-TTS: アクティベーションステアリングによる微粒で訓練不要な感情制御型テキスト音声合成
- Authors: Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu,
- Abstract要約: EmoSteer-TTSは、きめ細かい音声感情制御を実現するための、新しい訓練不要のアプローチである。
EmoSteer-TTSは、音声感情のきめ細かな、解釈可能な、連続的な制御を可能にし、最先端(SOTA)よりも優れている
- 参考スコア(独自算出の注目度): 34.57020177838285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS) has shown great progress in recent years. However, most existing TTS systems offer only coarse and rigid emotion control, typically via discrete emotion labels or a carefully crafted and detailed emotional text prompt, making fine-grained emotion manipulation either inaccessible or unstable. These models also require extensive, high-quality datasets for training. To address these limitations, we propose EmoSteer-TTS, a novel training-free approach, to achieve fine-grained speech emotion control (conversion, interpolation, erasure) by activation steering. We first empirically observe that modifying a subset of the internal activations within a flow matching-based TTS model can effectively alter the emotional tone of synthesized speech. Building on this insight, we then develop a training-free and efficient algorithm, including activation extraction, emotional token searching, and inference-time steering, which can be seamlessly integrated into a wide range of pretrained models (e.g., F5-TTS, CosyVoice2, and E2-TTS). In addition, to derive effective steering vectors, we construct a curated emotional speech dataset with diverse speakers. Extensive experiments demonstrate that EmoSteer-TTS enables fine-grained, interpretable, and continuous control over speech emotion, outperforming the state-of-the-art (SOTA). To the best of our knowledge, this is the first method that achieves training-free and continuous fine-grained emotion control in TTS.
- Abstract(参考訳): テキスト音声(TTS)は近年大きく進歩している。
しかし、既存のほとんどのTSシステムは、粗い感情制御のみを提供しており、通常は、離散的な感情ラベルまたは慎重に作り上げられた詳細な感情テキストプロンプトによって、きめ細かな感情操作が到達不能または不安定になる。
これらのモデルには、トレーニングのための広範囲で高品質なデータセットも必要です。
これらの制約に対処するために,アクティベーション・ステアリングによるきめ細かい音声感情制御(変換,補間,消去)を実現するための,新しいトレーニングフリーアプローチであるEmoSteer-TTSを提案する。
まず、フローマッチングに基づくTSモデルにおいて、内部アクティベーションのサブセットを変更することで、合成音声の感情的トーンを効果的に変更できることを経験的に観察する。
この知見に基づいて、アクティベーション抽出、感情トークン探索、推論時ステアリングを含む、トレーニング不要で効率的なアルゴリズムを開発し、様々な事前訓練されたモデル(例えば、F5-TTS、CosyVoice2、E2-TTS)にシームレスに統合することができる。
さらに,効果的なステアリングベクトルを導出するために,多様な話者を用いた感情音声データセットを構築した。
EmoSteer-TTSは音声の感情を微粒化し、解釈し、連続的に制御し、最先端(SOTA)よりも優れることを示した。
我々の知る限りでは、TTSにおけるトレーニング不要かつ連続的な微粒な感情制御を実現する最初の方法である。
関連論文リスト
- UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [34.89118596727314]
制御可能な感情的TTSのための離散的感情と次元的感情を統一したニューラル言語モデルであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
UDDETTSはADV空間の3次元に沿って線形感情制御を統一し、より優れたエンドツーエンドの感情音声合成能力を示す。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。
EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の全スペクトルを伝達する上で困難に直面している。
本稿では,3つの感情的次元 – 快楽,覚醒,支配 – に対してフレキシブルなユーザコントロールを提供するTTSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Fine-grained Emotional Control of Text-To-Speech: Learning To Rank
Inter- And Intra-Class Emotion Intensities [1.4986031916712106]
State-of-the-art Text-To-Speech (TTS)モデルは高品質な音声を生成することができる。
本稿では,クラス間距離とクラス内距離の両方を考慮した,きめ細かい制御可能な感情的TSを提案する。
我々の実験は、制御性、感情、自然性の2つの最先端制御可能なTSモデルを超えることを示した。
論文 参考訳(メタデータ) (2023-03-02T09:09:03Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。