論文の概要: RoleRMBench & RoleRM: Towards Reward Modeling for Profile-Based Role Play in Dialogue Systems
- arxiv url: http://arxiv.org/abs/2512.10575v1
- Date: Thu, 11 Dec 2025 12:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.3528
- Title: RoleRMBench & RoleRM: Towards Reward Modeling for Profile-Based Role Play in Dialogue Systems
- Title(参考訳): RoleRMBench & RoleRM: 対話システムにおけるプロファイルベースのロールプレイのリワードモデリングに向けて
- Authors: Hang Ding, Qiming Feng, Dongqi Liu, Qi Zhao, Tao Yao, Shuo Wang, Dongsheng Chen, Jian Li, Zhenye Gan, Jiangning Zhang, Chengjie Wang, Yabiao Wang,
- Abstract要約: 継続的インシシット優先(CIP)で訓練された報酬モデルであるRoleRMを開発する。
RoleRMは、オープンソースの強力な報酬モデルとクローズドな報酬モデルを平均で24%以上超えています。
本研究は,人間中心対話システムにおける主観的アライメントの基礎となる,連続的嗜好表現とアノテーションの整合性の重要性を強調した。
- 参考スコア(独自算出の注目度): 85.16327248973387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward modeling has become a cornerstone of aligning large language models (LLMs) with human preferences. Yet, when extended to subjective and open-ended domains such as role play, existing reward models exhibit severe degradation, struggling to capture nuanced and persona-grounded human judgments. To address this gap, we introduce RoleRMBench, the first systematic benchmark for reward modeling in role-playing dialogue, covering seven fine-grained capabilities from narrative management to role consistency and engagement. Evaluation on RoleRMBench reveals large and consistent gaps between general-purpose reward models and human judgment, particularly in narrative and stylistic dimensions. We further propose RoleRM, a reward model trained with Continuous Implicit Preferences (CIP), which reformulates subjective evaluation as continuous consistent pairwise supervision under multiple structuring strategies. Comprehensive experiments show that RoleRM surpasses strong open- and closed-source reward models by over 24% on average, demonstrating substantial gains in narrative coherence and stylistic fidelity. Our findings highlight the importance of continuous preference representation and annotation consistency, establishing a foundation for subjective alignment in human-centered dialogue systems.
- Abstract(参考訳): リワードモデリングは、大規模言語モデル(LLM)と人間の嗜好の整合の基礎となっている。
しかし、ロールプレイのような主観的かつオープンなドメインに拡張された場合、既存の報酬モデルは重大な劣化を示し、ニュアンスや人格的判断の獲得に苦慮している。
このギャップに対処するために,ロールRMBenchを紹介した。ロールRMBenchはロールプレイング対話における報酬モデリングのための最初の体系的ベンチマークであり,物語管理から役割の一貫性とエンゲージメントに至るまで,7つのきめ細かい機能を含んでいる。
RoleRMBenchの評価は、一般的な報酬モデルと人間の判断、特に物語的・スタイリスティックな次元の間の大きな、一貫したギャップを明らかにしている。
さらに,複数の構造化戦略の下で,主観的評価を一貫した一貫した相互監督として再編成する,連続的インプリシト優先(CIP)で訓練された報酬モデルであるRoleRMを提案する。
総合的な実験により、RoleRMは強力なオープンソースおよびクローズドソースの報酬モデルを平均で24%以上超え、物語の一貫性とスタイリスティックな忠実さを著しく向上させることが示されている。
本研究は,人間中心対話システムにおける主観的アライメントの基礎となる,連続的嗜好表現とアノテーションの整合性の重要性を強調した。
関連論文リスト
- CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization [53.79487826635141]
RLFT(Reinforcement Learning Fine-Tuning)は、客観的に検証された回答を持つタスクにおいて顕著な成功を収めた。
しかし、ロールプレイング・ダイアログのようなオープンな主観的なタスクに苦しむ。
独立したサンプル単位のスコアリングに依存する従来の報酬モデリングアプローチでは、主観的評価基準と不安定な報酬信号という2つの課題に直面している。
人間の評価は、明示的な基準と暗黙的な比較判断を本質的に組み合わせているという知見に触発され、比較政策最適化を提案する。
論文 参考訳(メタデータ) (2025-08-12T16:49:18Z) - Alleviating User-Sensitive bias with Fair Generative Sequential Recommendation Model [37.544371176013435]
新しい生成モデルパラダイムとしての拡散モデル(DM)はレコメンデーションシステムにおいて大きな成功を収めた。
本稿では,FairGENRecに基づくFairGENerative Sequence Recommendationモデルを提案する。
論文 参考訳(メタデータ) (2025-06-24T16:42:46Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - Enhancing Persona Consistency for LLMs' Role-Playing using Persona-Aware Contrastive Learning [7.836439251883518]
モデルロールプレイング行動を調整するために,textbfunderlinePersona-Aware textbfunderlineContrastive textbfunderlineLearning (PCL) という新しいフレームワークを提案する。
自動評価法と人手による評価では,PCLはバニラLLMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-22T06:12:34Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。