論文の概要: CRPO: Character-centric Group Relative Policy Optimization for Role-aware Reasoning in Role-playing Agents
- arxiv url: http://arxiv.org/abs/2605.25511v1
- Date: Mon, 25 May 2026 07:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.434603
- Title: CRPO: Character-centric Group Relative Policy Optimization for Role-aware Reasoning in Role-playing Agents
- Title(参考訳): CRPO:ロールプレイングエージェントにおける役割認識推論のための文字中心のグループ相対ポリシー最適化
- Authors: Yihong Tang, Kehai Chen, Liang Yue, Benyou Wang, Min Zhang,
- Abstract要約: 本稿では,ロールプレイングタスクで目的を実現するためのフレームワークCRPOを提案する。
CRPOは3つのメカニズムにより、タスクロジックをスタイリスティックな報酬から切り離して勾配競合を解消し、文字複雑性に基づいた最適化制約を動的に適応させ、一般的な応答を負のベースラインとして利用し、モデルが共通の分布に戻すのを防ぐ。
- 参考スコア(独自算出の注目度): 53.765941044015854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Reinforcement Learning (RL), particularly Group Relative Policy Optimization (GRPO), have significantly enhanced the reasoning capabilities of Large Language Models. However, applying these problem-centric optimization methods to role-playing agents often leads to a loss of character fidelity and style collapse, as they prioritize context-specific utility over persona alignment. To address this, we propose Character-Centric Group Relative Policy Optimization (CRPO), a framework designed to realign RL objectives with the role-playing task. CRPO improves character distinctiveness through three mechanisms: decoupling task logic from stylistic rewards to resolve gradient conflicts, dynamically adapting optimization constraints based on character complexity, and utilizing generic responses as negative baselines to prevent the model from reverting to a common distribution. Extensive experiments demonstrate that CRPO outperforms existing methods in consistency, emotion and others.
- Abstract(参考訳): 強化学習(RL)の最近の進歩、特にグループ相対政策最適化(GRPO)は、大規模言語モデルの推論能力を大幅に向上させてきた。
しかしながら、これらの問題中心の最適化手法をロールプレイングエージェントに適用すると、ペルソナアライメントよりもコンテキスト固有のユーティリティが優先されるため、キャラクタの忠実さやスタイルの崩壊が失われることが多い。
そこで本稿では,RL目標をロールプレイングタスクで実現するためのフレームワークであるCRPOを提案する。
CRPOは3つのメカニズムにより、タスクロジックをスタイリスティックな報酬から切り離して勾配競合を解消し、文字複雑性に基づいた最適化制約を動的に適応させ、一般的な応答を負のベースラインとして利用し、モデルが共通の分布に戻すのを防ぐ。
CRPOは、一貫性や感情などにおいて、既存の手法よりも優れています。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。