Fugu-MT 論文翻訳(概要): Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization

論文の概要: Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization

arxiv url: http://arxiv.org/abs/2509.25416v1
Date: Mon, 29 Sep 2025 19:19:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-01 17:09:04.286183
Title: Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization
Title（参考訳）: 優先誘導最適化による拡散テキストから音声モデルへの感情適応生成
Authors: Jiacheng Shi, Hongfei Du, Yangfan He, Y. Alicia Hong, Ye Gao,
Abstract要約: EASPO(Emotion-Aware Stepwise Preference Optimization, EASPO)は、拡散性TTSと微妙な感情的嗜好を中間認知ステップで一致させる学習後フレームワークである。提案手法の中心となるのは、雑音の多い中間音声状態を記録し、自動選好ペア構築を可能にする時間条件付きモデルであるEASPMである。実験は、表現性と自然性の両方において、既存の方法よりも優れた性能を示す。
参考スコア（独自算出の注目度）: 5.96632248469088
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotional text-to-speech seeks to convey affect while preserving intelligibility and prosody, yet existing methods rely on coarse labels or proxy classifiers and receive only utterance-level feedback. We introduce Emotion-Aware Stepwise Preference Optimization (EASPO), a post-training framework that aligns diffusion TTS with fine-grained emotional preferences at intermediate denoising steps. Central to our approach is EASPM, a time-conditioned model that scores noisy intermediate speech states and enables automatic preference pair construction. EASPO optimizes generation to match these stepwise preferences, enabling controllable emotional shaping. Experiments show superior performance over existing methods in both expressiveness and naturalness.
Abstract（参考訳）: Emotional text-to-speechは、インテリジェンスと韻律を保ちながら影響を伝えようとするが、既存の方法は粗いラベルやプロキシ分類器に依存し、発話レベルのフィードバックのみを受け取る。 EASPO(Emotion-Aware Stepwise Preference Optimization, EASPO)は、拡散性TTSと微妙な感情的嗜好を中間認知ステップで一致させる学習後フレームワークである。提案手法の中心となるのは、雑音の多い中間音声状態を記録し、自動選好ペア構築を可能にする時間条件付きモデルであるEASPMである。 EASPOは、これらの段階的な好みに合わせて生成を最適化し、制御可能な感情的シェーピングを可能にする。実験は、表現性と自然性の両方において、既存の方法よりも優れた性能を示す。

関連論文リスト

EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。 EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-28T10:02:06Z)
EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast [24.24520233247336]
EmotionRankCLAPは、感情音声の次元特性と自然言語のプロンプトを用いて、きめ細かな感情変化を協調的にキャプチャする教師付きコントラスト学習手法である。 EmotionRankCLAPは、モーダル横断検索タスクを通じて測定された感情の規則性をモデル化する既存の感情-CLAPメソッドよりも優れています。
論文参考訳（メタデータ） (2025-05-29T17:56:55Z)
ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech [6.849595332644105]
ClapFM-EVCは、自然言語のプロンプトや、調整可能な感情強度を持つ参照音声によって駆動される高品質な変換音声を生成することができる新しいフレームワークである。
論文参考訳（メタデータ） (2025-05-20T01:34:29Z)
EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice Conversion [30.25632448893884]
Emotional Voice Conversion (EVC) は、音源の感情から特定の発話のターゲットへの離散的な感情状態を変換することを目的としている。本研究では,対象感情の正確な音声を生成するために,拡散型ECVフレームワークにおける感情強度の正規化を提案する。提案手法の有効性は、英語とヒンディー語に対する主観的および客観的評価の観点から、最先端(SOTA)ベースラインにまたがって示されている。
論文参考訳（メタデータ） (2024-12-29T05:30:06Z)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文参考訳（メタデータ） (2024-10-14T21:17:58Z)
Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。 1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文参考訳（メタデータ） (2024-09-19T01:58:19Z)
DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations without Text Alignment [34.19748360507656]
DurFlex-EVCは、テキストやアライメント情報を必要とせずに動作する、持続的フレキシブルなECVフレームワークである。本稿では,テキスト・テキスト・アライメントの不要さを解消し,コンテントを表す個別の単位に音声をアライメントすることで,文脈情報をモデル化するユニット・アライメント手法を提案する。また、音声の感情特性を正確に操作できるように、コンテンツと感情のスタイルを効果的に切り離すスタイルオートエンコーダを設計する。
論文参考訳（メタデータ） (2024-01-16T03:39:35Z)
DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文参考訳（メタデータ） (2023-09-25T04:58:38Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。