論文の概要: RLAIF-SPA: Optimizing LLM-based Emotional Speech Synthesis via RLAIF
- arxiv url: http://arxiv.org/abs/2510.14628v1
- Date: Thu, 16 Oct 2025 12:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.854486
- Title: RLAIF-SPA: Optimizing LLM-based Emotional Speech Synthesis via RLAIF
- Title(参考訳): RLAIF-SPA:RLAIFによるLLMに基づく感情音声合成の最適化
- Authors: Qing Yang, Zhenghao Liu, Junxin Wang, Yangfan Du, Pengcheng Huang, Tong Xiao,
- Abstract要約: テキスト音声合成は中性音声においてほぼ人間に近い品質を達成しているが、感情的な表現性は依然として課題である。
本稿では,AIフィードバック機構からの強化学習を取り入れたRLAIF-SPAフレームワークを提案する。
Libri 音声データセットの実験によると、RLAIF-SPA は Chat-TTS より優れており、WER は26.1%、SIM-O は9.1%、人的評価は10%以上向上している。
- 参考スコア(独自算出の注目度): 23.474332076771308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-To-Speech synthesis has achieved near-human quality in neutral speech, but emotional expressiveness remains a challenge. Existing methods often rely on costly emotion annotations or optimize indirect objectives that fail to capture the emotional expressiveness and perceptual naturalness of speech, leading to generated speech that is accurate but emotionally flat. To address these challenges, we propose the RLAIF-SPA framework, incorporating a Reinforcement Learning from AI Feedback (RLAIF) mechanism to employ Automatic Speech Recognition (ASR) and Large Language Model (LLM) techniques to respectively judge semantic accuracy and prosodic-emotional label alignment as a direct reward for emotional expressiveness and intelligibility optimization. Specifically, it leverages Prosodic Label Alignment to enhance expressive quality by jointly considering semantic accuracy and prosodic-emotional alignment along four fine-grained dimensions: Structure, Emotion, Speed, and Tone. In addition, it incorporates Semantic Accuracy Feedback to ensure the generation of clear and accurate speech. Experiments on the Libri Speech dataset show that RLAIF-SPA outperforms Chat-TTS, with a 26.1% reduction in WER, a 9.1% increase in SIM-O, and over 10% improvement in human evaluation.
- Abstract(参考訳): テキスト音声合成は中性音声においてほぼ人間に近い品質を達成しているが、感情的な表現性は依然として課題である。
既存の方法は、しばしばコストのかかる感情のアノテーションや、感情的な表現力や知覚的自然さを捉えるのに失敗した間接的な目的を最適化することに依存し、正確だが感情的に平坦な音声を生み出す。
これらの課題に対処するため、RLAIF-SPAフレームワークを提案し、AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)機構を導入し、自動音声認識(ASR)とLarge Language Model(LLM)技術を用いて、感情表現性とインテリジェンス最適化のための直接的な報酬として、意味的精度と韻律・感情的ラベルアライメントをそれぞれ判断する。
具体的には、韻律的ラベルアライメント(Prosodic Label Alignment)を活用して、意味的正確さと韻律的感情的アライメント(Structure, Emotion, Speed, Tone)を4つのきめ細かな次元に沿って共同で検討することで、表現的品質を向上させる。
さらに、セマンティック精度フィードバックを組み込んで、明瞭で正確な音声の生成を保証する。
Libri 音声データセットの実験によると、RLAIF-SPA は Chat-TTS より優れており、WER は26.1%、SIM-O は9.1%、人的評価は10%以上向上している。
関連論文リスト
- Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition [3.1649536621597973]
大規模音声言語モデル(LALM)は、音声タスク全体で強いゼロショット性能を示すが、音声感情認識(SER)に苦慮している。
そこで我々は,感情推論におけるLALMを微調整なしでガイドするための,感情推論のためのCCoT-Emo(Compositional Chain-of-Thought Prompting for Emotion Reasoning)を提案する。
論文 参考訳(メタデータ) (2025-09-29T20:06:03Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。
本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文 参考訳(メタデータ) (2025-07-16T04:15:06Z) - MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition [1.894337673869513]
本稿では,自然条件下での音声感情認識(SERNC)チャレンジへの貢献について述べる。
自然言語の複雑さに対処するため,マルチレベル音響-手動感情表現(MATER)を提案する。
MATERは、単語、発話、埋め込みレベルにおける音響的特徴とテキスト的特徴を統合する。
論文 参考訳(メタデータ) (2025-06-24T05:35:53Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。