論文の概要: Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization
- arxiv url: http://arxiv.org/abs/2509.25416v1
- Date: Mon, 29 Sep 2025 19:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.286183
- Title: Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization
- Title(参考訳): 優先誘導最適化による拡散テキストから音声モデルへの感情適応生成
- Authors: Jiacheng Shi, Hongfei Du, Yangfan He, Y. Alicia Hong, Ye Gao,
- Abstract要約: EASPO(Emotion-Aware Stepwise Preference Optimization, EASPO)は、拡散性TTSと微妙な感情的嗜好を中間認知ステップで一致させる学習後フレームワークである。
提案手法の中心となるのは、雑音の多い中間音声状態を記録し、自動選好ペア構築を可能にする時間条件付きモデルであるEASPMである。
実験は、表現性と自然性の両方において、既存の方法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 5.96632248469088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional text-to-speech seeks to convey affect while preserving intelligibility and prosody, yet existing methods rely on coarse labels or proxy classifiers and receive only utterance-level feedback. We introduce Emotion-Aware Stepwise Preference Optimization (EASPO), a post-training framework that aligns diffusion TTS with fine-grained emotional preferences at intermediate denoising steps. Central to our approach is EASPM, a time-conditioned model that scores noisy intermediate speech states and enables automatic preference pair construction. EASPO optimizes generation to match these stepwise preferences, enabling controllable emotional shaping. Experiments show superior performance over existing methods in both expressiveness and naturalness.
- Abstract(参考訳): Emotional text-to-speechは、インテリジェンスと韻律を保ちながら影響を伝えようとするが、既存の方法は粗いラベルやプロキシ分類器に依存し、発話レベルのフィードバックのみを受け取る。
EASPO(Emotion-Aware Stepwise Preference Optimization, EASPO)は、拡散性TTSと微妙な感情的嗜好を中間認知ステップで一致させる学習後フレームワークである。
提案手法の中心となるのは、雑音の多い中間音声状態を記録し、自動選好ペア構築を可能にする時間条件付きモデルであるEASPMである。
EASPOは、これらの段階的な好みに合わせて生成を最適化し、制御可能な感情的シェーピングを可能にする。
実験は、表現性と自然性の両方において、既存の方法よりも優れた性能を示す。
関連論文リスト
- ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning [67.22219034602514]
ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。
ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。
ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
論文 参考訳(メタデータ) (2026-02-13T08:33:37Z) - EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis [36.831497786147864]
EmoSteerレイヤを組み込んだ軽量なアクティベーションステアリングフレームワークであるEmoShiftを提案する。
EmoShiftは出力埋め込み空間内の各ターゲット感情に対するステアリングベクトルを学習し、その潜在オフセットをキャプチャし、安定した適切な表現を維持する。
完全な微調整の1/30未満のトレーニング可能なパラメータは10Mに過ぎず、EmoShiftはゼロショットと完全に微調整されたベースラインを客観的および主観的な評価で上回っている。
論文 参考訳(メタデータ) (2026-01-30T11:50:23Z) - Prompt Optimization Via Diffusion Language Models [73.9599434962714]
本稿では,迅速な最適化のための拡散型フレームワークを提案する。
本手法は,下流言語モデルへのアクセスや変更を必要とせずに,フレキシブルかつスパンレベルのプロンプト更新を可能にする。
適度な拡散ステップ数によって、精製品質と安定性のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2026-01-30T00:00:54Z) - A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。
IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。
HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:07:30Z) - Emotion-Disentangled Embedding Alignment for Noise-Robust and Cross-Corpus Speech Emotion Recognition [7.243987016933212]
本稿では,音声感情認識モデルの堅牢性向上と一般化のための2段階のアプローチを提案する。
課題条件下での性能向上は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2025-10-10T07:17:07Z) - Emotional Text-To-Speech Based on Mutual-Information-Guided Emotion-Timbre Disentanglement [37.959531845352274]
実験結果から,本手法は自然な,感情的に豊かな音声を生成する上で,ベースラインTSシステムよりも優れていた。
この研究は、感情的なTSシステムの品質と柔軟性を向上する上で、絡み合った、きめ細かな表現の可能性を強調している。
論文 参考訳(メタデータ) (2025-10-02T07:03:50Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast [24.24520233247336]
EmotionRankCLAPは、感情音声の次元特性と自然言語のプロンプトを用いて、きめ細かな感情変化を協調的にキャプチャする教師付きコントラスト学習手法である。
EmotionRankCLAPは、モーダル横断検索タスクを通じて測定された感情の規則性をモデル化する既存の感情-CLAPメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-05-29T17:56:55Z) - ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech [6.849595332644105]
ClapFM-EVCは、自然言語のプロンプトや、調整可能な感情強度を持つ参照音声によって駆動される高品質な変換音声を生成することができる新しいフレームワークである。
論文 参考訳(メタデータ) (2025-05-20T01:34:29Z) - EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice Conversion [30.25632448893884]
Emotional Voice Conversion (EVC) は、音源の感情から特定の発話のターゲットへの離散的な感情状態を変換することを目的としている。
本研究では,対象感情の正確な音声を生成するために,拡散型ECVフレームワークにおける感情強度の正規化を提案する。
提案手法の有効性は、英語とヒンディー語に対する主観的および客観的評価の観点から、最先端(SOTA)ベースラインにまたがって示されている。
論文 参考訳(メタデータ) (2024-12-29T05:30:06Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations without Text Alignment [34.19748360507656]
DurFlex-EVCは、テキストやアライメント情報を必要とせずに動作する、持続的フレキシブルなECVフレームワークである。
本稿では,テキスト・テキスト・アライメントの不要さを解消し,コンテントを表す個別の単位に音声をアライメントすることで,文脈情報をモデル化するユニット・アライメント手法を提案する。
また、音声の感情特性を正確に操作できるように、コンテンツと感情のスタイルを効果的に切り離すスタイルオートエンコーダを設計する。
論文 参考訳(メタデータ) (2024-01-16T03:39:35Z) - DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。
拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。
モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。