論文の概要: RoleCDE:Benchmarking and Mitigating Role-Alignment Trade-offs in Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2606.01552v1
- Date: Mon, 01 Jun 2026 01:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.862248
- Title: RoleCDE:Benchmarking and Mitigating Role-Alignment Trade-offs in Role-Playing Agents
- Title(参考訳): RoleCDE:ロールプレイングエージェントにおけるロールアライメントトレードオフのベンチマークと緩和
- Authors: Huayi Lai, Shichao Song, Simin Niu, Hanyu Wang, Jiawei Yang, Zhouxing Wang, Zhiqiang Yin, Xun Liang,
- Abstract要約: RoleCDEは,ロール固有値とアライメント指向制約との間の構造的矛盾の下でRPAを評価するために設計された最初のベンチマークである。
ベンチマークは大規模に構築され、およそ8万の多様なロールプロファイルとシナリオと、3つの難易度と8つのロールカテゴリにわたる24万のジレンマインスタンスをカバーする。
- 参考スコア(独自算出の注目度): 22.61759060826869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Role-playing agents(RPAs) are widely used to steer large language models(LLMs) toward role-consistent behavior, yet existing benchmarks mainly evaluate surface-level fidelity and offer limited insight into decision making under role-alignment value conflicts. To address this gap, we introduce RoleCDE, the first benchmark designed to evaluate RPAs under structured conflicts between role-specific values and alignment-oriented constraints. RoleCDE formulates role-aware decision making as cognitive dilemma scenarios, jointly evaluating role-scenario grounding, value conflict resolution, and decision tendencies. The benchmark is constructed at scale, covering approximately 8k diverse role profiles and scenarios and nearly 24k dilemma instances across three difficulty levels and eight role categories. Evaluation of several mainstream LLMs reveals a "Role Value Decoupling" phenomenon, where agents systematically default to alignment-and morality-consistent decisions rather than role-specific values when the two conflict, even under explicit role conditioning. This behavior is largely invariant to dilemma difficulty but varies substantially across role categories. We further show that RoleCDE-based fine-tuning effectively mitigates this decoupling by improving value trade-off reasoning, while preserving general role-playing fidelity and general reasoning performance. Code is available at: https://github.com/rabbitrose/RoleCDE.
- Abstract(参考訳): ロールプレイングエージェント(RPAs)は、ロール一貫性のある振る舞いに対して大きな言語モデル(LLM)を操るために広く使用されているが、既存のベンチマークは主に表面レベルの忠実さを評価し、ロールアライメント値の競合の下での意思決定に関する限られた洞察を提供する。
このギャップに対処するために、ロール固有値とアライメント指向制約との間の構造化された競合の下でRPAを評価するために設計された最初のベンチマークであるRoleCDEを紹介する。
RoleCDEは、役割認識決定を認知ジレンマのシナリオとして定式化し、ロール・scenario grounding、バリューコンフリクトの解決、意思決定傾向を共同で評価する。
ベンチマークは大規模に構築され、およそ8万の多様なロールプロファイルとシナリオと、3つの難易度と8つのロールカテゴリにわたる24万のジレンマインスタンスをカバーする。
いくつかの主要なLCMの評価は「ロールバリューデカップリング(Role Value Decoupling)」現象を示しており、エージェントは2つの競合が明示的な役割条件の下でさえ、役割固有の値ではなく、アライメントとモラルと一貫性のある決定を体系的にデフォルトとする。
この挙動はジレンマの難易度にはほとんど不変ではないが、役割のカテゴリーによって大きく異なる。
さらに,RoleCDEに基づく微調整は,一般的なロールプレイングの忠実さと一般的な推論性能を維持しつつ,価値トレードオフ推論を改善することで,このデカップリングを効果的に軽減することを示す。
コードは、https://github.com/rabbitrose/RoleCDE.comで入手できる。
関連論文リスト
- CRPO: Character-centric Group Relative Policy Optimization for Role-aware Reasoning in Role-playing Agents [53.765941044015854]
本稿では,ロールプレイングタスクで目的を実現するためのフレームワークCRPOを提案する。
CRPOは3つのメカニズムにより、タスクロジックをスタイリスティックな報酬から切り離して勾配競合を解消し、文字複雑性に基づいた最適化制約を動的に適応させ、一般的な応答を負のベースラインとして利用し、モデルが共通の分布に戻すのを防ぐ。
論文 参考訳(メタデータ) (2026-05-25T07:15:38Z) - When Roles Fail: Epistemic Constraints on Advocate Role Fidelity in LLM-Based Political Statement Analysis [0.0]
本稿では,モデルが割り当てられた役割を確実に維持するという仮定を,初めて体系的に実証した。
RDI(Role Drift Index)、EDD(Drift Distance)、DDI(Directional Drift Index)、ERS(Entropy-based Role stability)の4つの指標を用いて、60の政治声明における役割忠実度を測定した。
エピステミック・フロア・エフェクト(ファクト・チェックの結果は、正当性が維持できない絶対的な下位境界を作る)とロール・プライア・コンフリクト(学習時の知識が、事実的に曖昧な文に対して役割指示を上回る)の2つの障害モードを特定します。
論文 参考訳(メタデータ) (2026-04-29T21:50:28Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR [67.66592867046229]
character-R1は効果的な役割認識推論のための検証可能な報酬信号を提供するために設計されたフレームワークである。
本フレームワークは,認知的フォーカス・リワード(Cognitive Focus Reward),参照ガイド・リワード(Reference-Guided Reward),文字指定リワード正規化( character-Conditioned Reward normalization)の3つのコア設計で構成されている。
論文 参考訳(メタデータ) (2026-01-08T05:33:37Z) - RoleRMBench & RoleRM: Towards Reward Modeling for Profile-Based Role Play in Dialogue Systems [85.16327248973387]
継続的インシシット優先(CIP)で訓練された報酬モデルであるRoleRMを開発する。
RoleRMは、オープンソースの強力な報酬モデルとクローズドな報酬モデルを平均で24%以上超えています。
本研究は,人間中心対話システムにおける主観的アライメントの基礎となる,連続的嗜好表現とアノテーションの整合性の重要性を強調した。
論文 参考訳(メタデータ) (2025-12-11T12:04:46Z) - RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity [30.85143823239653]
RoleConflictBenchは、複雑な社会的ジレンマにおける大規模言語モデルの文脈感度を評価するために設計された新しいベンチマークである。
私たちのベンチマークでは、3段階のパイプラインを使用して、65のロールにわたる13K以上の現実的なロールコンフリクトシナリオを生成しています。
本分析では,これらのバイアスを定量化し,家族・職業領域における役割の優位性を明らかにした。
論文 参考訳(メタデータ) (2025-09-30T07:42:49Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Role-Play Paradox in Large Language Models: Reasoning Performance Gains and Ethical Dilemmas [7.677029165197536]
大型言語モデル(LLM)におけるロールプレイは、文脈的に関連性があり高品質な応答を生成する能力を高める。
本稿では,モデルの役割を自動選択する手法であるオートチューニングが,有害なアウトプットの生成につながることを実証する。
論文 参考訳(メタデータ) (2024-09-21T02:09:13Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。