論文の概要: CoCoEmo: Composable and Controllable Human-Like Emotional TTS via Activation Steering
- arxiv url: http://arxiv.org/abs/2602.03420v1
- Date: Tue, 03 Feb 2026 11:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.425815
- Title: CoCoEmo: Composable and Controllable Human-Like Emotional TTS via Activation Steering
- Title(参考訳): CoCoEmo: アクティベーションステアリングによる構成可能でコントロール可能な人間ライクな感情型TS
- Authors: Siyi Wang, Shihong Tan, Siyi Liu, Hong Jia, Gongping Huang, James Bailey, Ting Dang,
- Abstract要約: 人間の言論における感情表現はニュアンス的で構成的であり、しばしば複数の矛盾する感情的な手がかりを含む。
ほとんどの表現力のあるテキスト音声システムは、単一の発話レベルの感情を強制し、感情の多様性を崩壊させ、混合あるいはテキスト感情のミスマッチした表現を抑制する。
本稿では,構成可能な混合感情合成と信頼性のあるテキスト感情ミスマッチ合成を可能にする定量的かつ制御可能なステアリングフレームワークとマルチレータ評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 25.10244503397448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional expression in human speech is nuanced and compositional, often involving multiple, sometimes conflicting, affective cues that may diverge from linguistic content. In contrast, most expressive text-to-speech systems enforce a single utterance-level emotion, collapsing affective diversity and suppressing mixed or text-emotion-misaligned expression. While activation steering via latent direction vectors offers a promising solution, it remains unclear whether emotion representations are linearly steerable in TTS, where steering should be applied within hybrid TTS architectures, and how such complex emotion behaviors should be evaluated. This paper presents the first systematic analysis of activation steering for emotional control in hybrid TTS models, introducing a quantitative, controllable steering framework, and multi-rater evaluation protocols that enable composable mixed-emotion synthesis and reliable text-emotion mismatch synthesis. Our results demonstrate, for the first time, that emotional prosody and expressive variability are primarily synthesized by the TTS language module instead of the flow-matching module, and also provide a lightweight steering approach for generating natural, human-like emotional speech.
- Abstract(参考訳): 人間の言論における感情表現はニュアンス的で構成的であり、しばしば言語内容から分岐する複数の、時には矛盾する感情的な手がかりを含む。
対照的に、ほとんどの表現力のあるテキスト音声システムは、単一の発話レベルの感情を強制し、感情の多様性を崩壊させ、混合あるいはテキスト感情のミスマッチした表現を抑制する。
潜在方向ベクトルによるアクティベーションステアリングは有望な解であるが、TTSにおいて感情表現が線形にステアリング可能であるか、ハイブリッドTSアーキテクチャでステアリングを適用すべきか、そのような複雑な感情行動がどのように評価されるべきかは定かではない。
本稿では,ハイブリッドTSモデルにおける感情制御のためのアクティベーションステアリングを初めて体系的に解析し,定量的かつ制御可能なステアリングフレームワークと,構成可能な混合感情合成と信頼性のあるテキスト感情ミスマッチ合成を可能にするマルチレータ評価プロトコルを提案する。
この結果から, 感情的韻律と表現的変動性は, フローマッチングモジュールではなく, TTS言語モジュールによって主に合成され, 自然な人間の感情音声を生成するための軽量なステアリング手法も提供された。
関連論文リスト
- EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis [36.831497786147864]
EmoSteerレイヤを組み込んだ軽量なアクティベーションステアリングフレームワークであるEmoShiftを提案する。
EmoShiftは出力埋め込み空間内の各ターゲット感情に対するステアリングベクトルを学習し、その潜在オフセットをキャプチャし、安定した適切な表現を維持する。
完全な微調整の1/30未満のトレーニング可能なパラメータは10Mに過ぎず、EmoShiftはゼロショットと完全に微調整されたベースラインを客観的および主観的な評価で上回っている。
論文 参考訳(メタデータ) (2026-01-30T11:50:23Z) - A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。
IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。
HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:07:30Z) - EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering [40.298056212942726]
EmoSteer-TTSは、きめ細かい音声感情制御を実現するための、新しい訓練不要のアプローチである。
EmoSteer-TTSは、音声感情のきめ細かな、解釈可能な、連続的な制御を可能にし、最先端(SOTA)よりも優れている
論文 参考訳(メタデータ) (2025-08-05T15:12:49Z) - Towards Emotionally Consistent Text-Based Speech Editing: Introducing EmoCorrector and The ECD-TSE Dataset [52.95197015472105]
EmoCorrectorはテキストベースの音声編集のための新しいポスト補正方式である。
編集されたテキストの感情的特徴を検索し、一致する感情で音声サンプルを検索し、所望の感情に合わせて音声を合成する。
EmoCorrectorは、現在のTSEメソッドにおける感情の不整合に対処しながら、意図した感情の発現を著しく向上させる。
論文 参考訳(メタデータ) (2025-05-24T16:10:56Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の全スペクトルを伝達する上で困難に直面している。
本稿では,3つの感情的次元 – 快楽,覚醒,支配 – に対してフレキシブルなユーザコントロールを提供するTTSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。