論文の概要: EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis
- arxiv url: http://arxiv.org/abs/2601.22873v1
- Date: Fri, 30 Jan 2026 11:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.415389
- Title: EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis
- Title(参考訳): EmoShift: 感情認識音声合成のための軽量アクティベーションステアリング
- Authors: Li Zhou, Hao Jiang, Junjie Li, Tianrui Wang, Haizhou Li,
- Abstract要約: EmoSteerレイヤを組み込んだ軽量なアクティベーションステアリングフレームワークであるEmoShiftを提案する。
EmoShiftは出力埋め込み空間内の各ターゲット感情に対するステアリングベクトルを学習し、その潜在オフセットをキャプチャし、安定した適切な表現を維持する。
完全な微調整の1/30未満のトレーニング可能なパラメータは10Mに過ぎず、EmoShiftはゼロショットと完全に微調整されたベースラインを客観的および主観的な評価で上回っている。
- 参考スコア(独自算出の注目度): 36.831497786147864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving precise and controllable emotional expression is crucial for producing natural and context-appropriate speech in text-to-speech (TTS) synthesis. However, many emotion-aware TTS systems, including large language model (LLM)-based designs, rely on scaling fixed emotion embeddings or external guidance, limiting their ability to model emotion-specific latent characteristics. To address this gap, we present EmoShift, a lightweight activation-steering framework incorporating a EmoSteer layer, which learns a steering vector for each target emotion in the output embedding space to capture its latent offset and maintain stable, appropriate expression across utterances and categories. With only 10M trainable parameters,less than 1/30 of full fine-tuning, EmoShift outperforms zero-shot and fully fine-tuned baselines in objective and subjective evaluations, enhancing emotional expressiveness while preserving naturalness and speaker similarity. Further analysis confirms the proposed EmoSteer layer's effectiveness and reveals its potential for controllable emotional intensity in speech synthesis.
- Abstract(参考訳): テキスト・トゥ・音声(TTS)合成において, 感情表現の正確かつ制御可能な獲得は, 自然的かつ文脈的に適切な音声を生成する上で重要である。
しかし、大きな言語モデル(LLM)ベースの設計を含む多くの感情認識TSシステムは、感情固有の潜伏特性をモデル化する能力を制限するため、固定された感情埋め込みや外部ガイダンスのスケーリングに依存している。
このギャップに対処するため、EmoSteer層を組み込んだ軽量なアクティベーションステアリングフレームワークであるEmoShiftを提案し、出力埋め込み空間内の各ターゲット感情に対するステアリングベクトルを学習し、その潜在オフセットを捕捉し、発話やカテゴリ間で安定した適切な表現を維持する。
フル微調整の1/30未満のトレーニング可能なパラメータだけで、EmoShiftは目的的および主観的な評価においてゼロショットとフル微調整のベースラインを上回り、自然さと話者の類似性を保ちながら感情的な表現性を向上する。
さらに,提案したEmoSteer層の有効性を確認し,音声合成における感情強度の制御の可能性を明らかにする。
関連論文リスト
- RLAIF-SPA: Optimizing LLM-based Emotional Speech Synthesis via RLAIF [23.474332076771308]
テキスト音声合成は中性音声においてほぼ人間に近い品質を達成しているが、感情的な表現性は依然として課題である。
本稿では,AIフィードバック機構からの強化学習を取り入れたRLAIF-SPAフレームワークを提案する。
Libri 音声データセットの実験によると、RLAIF-SPA は Chat-TTS より優れており、WER は26.1%、SIM-O は9.1%、人的評価は10%以上向上している。
論文 参考訳(メタデータ) (2025-10-16T12:40:37Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。
マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T01:40:29Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。