論文の概要: HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing
- arxiv url: http://arxiv.org/abs/2601.21459v1
- Date: Thu, 29 Jan 2026 09:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.704003
- Title: HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing
- Title(参考訳): HER:LLMロールプレイングのための人間ライクな推論と強化学習
- Authors: Chengyu Du, Xintao Wang, Aili Chen, Weiyuan Li, Rui Xu, Junteng Liu, Zishan Huang, Rong Tian, Zijun Sun, Yuhao Li, Liheng Feng, Deming Ding, Pengyu Zhao, Yanghua Xiao,
- Abstract要約: LLMロールプレイングは、コンパニオンシップ、コンテンツ生成、デジタルゲームなど、様々なアプリケーションにおいて重要な機能として現れている。
これまでの努力は、高品質な推論トレースを持つデータと、人間の好みに沿った信頼できる報酬信号の2つの欠陥に悩まされていた。
認知レベルのペルソナシミュレーションのための統合フレームワークであるHERを提案する。
- 参考スコア(独自算出の注目度): 45.576245276229606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM role-playing, i.e., using LLMs to simulate specific personas, has emerged as a key capability in various applications, such as companionship, content creation, and digital games. While current models effectively capture character tones and knowledge, simulating the inner thoughts behind their behaviors remains a challenge. Towards cognitive simulation in LLM role-play, previous efforts mainly suffer from two deficiencies: data with high-quality reasoning traces, and reliable reward signals aligned with human preferences. In this paper, we propose HER, a unified framework for cognitive-level persona simulation. HER introduces dual-layer thinking, which distinguishes characters' first-person thinking from LLMs' third-person thinking. To bridge these gaps, we curate reasoning-augmented role-playing data via reverse engineering and construct human-aligned principles and reward models. Leveraging these resources, we train \method models based on Qwen3-32B via supervised and reinforcement learning. Extensive experiments validate the effectiveness of our approach. Notably, our models significantly outperform the Qwen3-32B baseline, achieving a 30.26 improvement on the CoSER benchmark and a 14.97 gain on the Minimax Role-Play Bench. Our datasets, principles, and models will be released to facilitate future research.
- Abstract(参考訳): LLMロールプレイング、すなわち、特定のペルソナをシミュレートするためにLLMを使用することは、コンパニオン、コンテンツ生成、デジタルゲームなど、様々なアプリケーションにおいて重要な機能として現れている。
現在のモデルは文字のトーンと知識を効果的に捉えているが、行動の背後にある内的思考をシミュレートすることは依然として困難である。
LLMロールプレイにおける認知シミュレーションに向けて、従来の取り組みは主に、高品質な推論トレースを持つデータと、人間の嗜好に沿った信頼性の高い報酬信号の2つの欠陥に悩まされていた。
本稿では,認知レベルのペルソナシミュレーションのための統合フレームワークであるHERを提案する。
HERは2層思考を導入し、キャラクターの第一人物思考とLLMの第三人物思考を区別する。
これらのギャップを埋めるために、リバースエンジニアリングを通じて推論強化されたロールプレイングデータをキュレートし、人間と協調した原則と報酬モデルを構築します。
これらのリソースを活用して、教師付きおよび強化学習を通じて、Qwen3-32Bに基づく‘methodモデル’を訓練する。
大規模な実験により、我々のアプローチの有効性が検証された。
特に、当社のモデルはQwen3-32Bベースラインを大きく上回り、CoSERベンチマークでは30.26改善、Minimax Role-Play Benchでは14.97アップを達成した。
私たちのデータセット、原則、モデルは、将来の研究を促進するためにリリースされます。
関連論文リスト
- Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。
近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。
数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文 参考訳(メタデータ) (2025-10-27T17:58:02Z) - UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。
我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T03:33:20Z) - Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning [27.226155951073064]
Shop-R1は大規模言語モデル(LLM)の推論能力向上を目的とした新しい強化学習フレームワークである
合理的な生成には、内部モデル信号(例えば、ロジット分布)を活用して、推論プロセスを自己管理的に導く。
行動予測のために,報酬ハッキングを防止するため,スケーリングの難しさを考慮した階層型報酬構造を提案する。
論文 参考訳(メタデータ) (2025-07-23T18:10:43Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。
そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。
我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文 参考訳(メタデータ) (2024-02-13T19:46:39Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。