論文の概要: Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR
- arxiv url: http://arxiv.org/abs/2601.04611v1
- Date: Thu, 08 Jan 2026 05:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.054747
- Title: Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR
- Title(参考訳): キャラクタR1:ロールプレイングエージェントにおけるロールアウェア推論のRLVRによる強化
- Authors: Yihong Tang, Kehai Chen, Xuefeng Bai, Benyou Wang, Zeming Liu, Haifeng Wang, Min Zhang,
- Abstract要約: character-R1は効果的な役割認識推論のための検証可能な報酬信号を提供するために設計されたフレームワークである。
本フレームワークは,認知的フォーカス・リワード(Cognitive Focus Reward),参照ガイド・リワード(Reference-Guided Reward),文字指定リワード正規化( character-Conditioned Reward normalization)の3つのコア設計で構成されている。
- 参考スコア(独自算出の注目度): 67.66592867046229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current role-playing agents (RPAs) are typically constructed by imitating surface-level behaviors, but this approach lacks internal cognitive consistency, often causing out-of-character errors in complex situations. To address this, we propose Character-R1, a framework designed to provide comprehensive verifiable reward signals for effective role-aware reasoning, which are missing in recent studies. Specifically, our framework comprises three core designs: (1) Cognitive Focus Reward, which enforces explicit label-based analysis of 10 character elements (e.g., worldview) to structure internal cognition; (2) Reference-Guided Reward, which utilizes overlap-based metrics with reference responses as optimization anchors to enhance exploration and performance; and (3) Character-Conditioned Reward Normalization, which adjusts reward distributions based on character categories to ensure robust optimization across heterogeneous roles. Extensive experiments demonstrate that Character-R1 significantly outperforms existing methods in knowledge, memory and others.
- Abstract(参考訳): 現在のロールプレイングエージェント(RPAs)は通常、表面レベルの動作を模倣して構築されるが、このアプローチは内部の認知一貫性に欠けており、複雑な状況では文字外エラーを引き起こすことが多い。
これを解決するために,近年の研究では欠落している効果的な役割認識推論のために,包括的検証可能な報酬信号を提供するためのフレームワークである character-R1 を提案する。
具体的には,(1)内部認識を構築するために10個の文字要素(例えば世界観)を明示的にラベルベースで分析する認知的フォーカス・リワード(Cognitive Focus Reward),(2)参照応答と参照応答を重なり合うメトリクスを最適化アンカーとして活用する参照ガイド・リワード(Reference-Guided Reward),(3)キャラクタ-Conditioned Reward Normalization(キャラクタ-Conditioned Reward Normalization)の3つのコア設計から構成される。
character-R1は知識や記憶などの既存の手法よりも優れています。
関連論文リスト
- CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks [6.881699020319577]
大規模言語モデル(LLM)を微調整するための強化学習フレームワークであるダイレクト推論最適化(DRO)を提案する。
DROは新たな報酬信号、Reasoning Reflection Reward (R3)によって誘導される。
DROは、オープンエンドドメインと構造化ドメインの両方にわたって広く適用されながら、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-16T10:43:38Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Reward-Aware Proto-Representations in Reinforcement Learning [6.855996110012974]
近年では、後継表現(SR)が強化学習(RL)において注目を集めている。
本稿では,この問題の報酬力学を考慮に入れた類似表現について論じる。
以上の結果から,SRと比較すると,DRは質的に異なる,報酬に敏感な動作を示し,いくつかの設定において定量的に優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-05-22T04:33:00Z) - RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward [7.9399136525335585]
RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
論文 参考訳(メタデータ) (2025-05-15T12:22:10Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning [22.825527641316192]
本稿では,直感的で効果的で汎用的なQA解法であるARRを紹介する。
質問の意図を分析し、関連する情報を検索し、ステップごとに推論する。
ARRにおいて重要な役割を果たすQAに意図分析を導入するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-02-07T06:30:33Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ITEM(Iterative utiliTy judgm fraEntMework)を提案する。
RAGの3つの中核的構成要素は、検索モデル、ユーティリティ判断、回答生成から導かれる関連性ランキングであり、シューツの哲学的関連性体系と一致している。
実効性判定, ランキング, 回答生成におけるITEMの顕著な改善が, 代表ベースラインに基づいて示された。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。