論文の概要: RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS
- arxiv url: http://arxiv.org/abs/2512.04552v1
- Date: Thu, 04 Dec 2025 08:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.060469
- Title: RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS
- Title(参考訳): RRPO:LLMに基づく感情的TSのためのロバストリワードポリシー最適化
- Authors: Cong Wang, Changfeng Gao, Yang Xiang, Zhihao Du, Keyu An, Han Zhao, Qian Chen, Xiangang Li, Yingming Gao, Ya Li,
- Abstract要約: ポリシーモデルは、アコースティックアーティファクトを生成することでバニラ・リワード・モデル(RM)を利用することができるが、品質を劣化させるコストがかかる。
本稿では,ハイブリッド正規化方式を採用した新しいフレームワークであるRobust Reward Policy Optimization (RRPO)を提案する。
このスキームは、報酬信号が人間の知覚とより確実に一致した堅牢なRMを開発し、有害なショートカットを放棄し、代わりに真の感情の複雑な特徴を学ぶようにポリシーを説得する。
- 参考スコア(独自算出の注目度): 37.07631000345777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentiable reinforcement learning (RL) frameworks like DiffRO offer a powerful approach for controllable text-to-speech (TTS), but are vulnerable to reward hacking, particularly for nuanced tasks like emotion control. The policy model can exploit a vanilla Reward Model (RM) by generating acoustic artifacts to achieve spurious rewards, but at the cost of degrading perceptual quality. To address this, we propose Robust Reward Policy Optimization (RRPO), a novel framework that employs a hybrid regularization scheme. This scheme develops a robust RM whose reward signal is more reliably aligned with human perception, compelling the policy to abandon detrimental shortcuts and instead learn the complex features of genuine emotions. Our ablation study confirms the enhanced robustness of our RM, as evidenced by its strong cross-lingual generalization. The subjective evaluation demonstrates that this robust RM effectively mitigates reward hacking, leading to significant improvements in both emotional expressiveness and naturalness over all baselines. Demo page: https://lrwinr.github.io/RRPO-CosyVoice.
- Abstract(参考訳): DiffROのような微分強化学習(RL)フレームワークは、制御可能なテキスト音声(TTS)に対して強力なアプローチを提供するが、特に感情制御のようなニュアンスなタスクにおいて、ハッキングに報酬を与えるには脆弱である。
ポリシーモデルは、アコースティックアーティファクトを生成することで、バニラ・リワードモデル(RM)を利用することができるが、知覚品質を劣化させるコストがかかる。
これを解決するために,ハイブリッド正規化方式を用いた新しいフレームワークであるRobust Reward Policy Optimization (RRPO)を提案する。
このスキームは、報酬信号が人間の知覚とより確実に一致した堅牢なRMを開発し、有害なショートカットを放棄し、代わりに真の感情の複雑な特徴を学ぶようにポリシーを説得する。
我々のアブレーション研究は、その強い言語間一般化によって証明されたRMの強靭性を裏付けるものである。
主観評価は、この堅牢なRMが報酬ハッキングを効果的に軽減し、すべてのベースラインに対する感情的表現性と自然性の両方に大きな改善をもたらすことを示した。
デモページ: https://lrwinr.github.io/RRPO-CosyVoice.com
関連論文リスト
- Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。