論文の概要: UserLM-R1: Modeling Human Reasoning in User Language Models with Multi-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.09215v1
- Date: Wed, 14 Jan 2026 06:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.298106
- Title: UserLM-R1: Modeling Human Reasoning in User Language Models with Multi-Reward Reinforcement Learning
- Title(参考訳): UserLM-R1:マルチリワード強化学習を用いたユーザ言語モデルにおけるヒューマン推論のモデル化
- Authors: Feng Zhang, Shijia Li, Chunmao Zhang, Zhanyu Ma, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He, Jingwen Xu, Han Liu,
- Abstract要約: 推論機能を備えた新しいユーザ言語モデルであるUserLM-R1を提案する。
まず,静的な役割と,多様なシナリオに適応するための動的シナリオ特異的な目標を兼ね備えた包括的ユーザプロファイルを構築した。
そこで我々は,応答を生成する前に,高品質な合理性を生成するためのゴール駆動意思決定政策を提案する。
- 参考スコア(独自算出の注目度): 32.51053667574764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User simulators serve as the critical interactive environment for agent post-training, and an ideal user simulator generalizes across domains and proactively engages in negotiation by challenging or bargaining. However, current methods exhibit two issues. They rely on static and context-unaware profiles, necessitating extensive manual redesign for new scenarios, thus limiting generalizability. Moreover, they neglect human strategic thinking, leading to vulnerability to agent manipulation. To address these issues, we propose UserLM-R1, a novel user language model with reasoning capability. Specifically, we first construct comprehensive user profiles with both static roles and dynamic scenario-specific goals for adaptation to diverse scenarios. Then, we propose a goal-driven decision-making policy to generate high-quality rationales before producing responses, and further refine the reasoning and improve strategic capabilities with supervised fine-tuning and multi-reward reinforcement learning. Extensive experimental results demonstrate that UserLM-R1 outperforms competitive baselines, particularly on the more challenging adversarial set.
- Abstract(参考訳): ユーザシミュレータはエージェントのポストトレーニングにおける重要な対話環境として機能し、理想的なユーザシミュレータはドメインをまたいで一般化し、挑戦や交渉によって積極的に交渉を行う。
しかし、現在の方法には2つの問題がある。
それらは静的でコンテキストを意識しないプロファイルに依存しており、新しいシナリオに対して広範囲に手動で再設計する必要があるため、一般化性が制限される。
さらに、人間の戦略的思考を無視し、エージェント操作の脆弱性につながる。
これらの問題に対処するために,推論機能を備えた新しいユーザ言語モデルであるUserLM-R1を提案する。
具体的には,様々なシナリオに適応するための静的な役割と動的シナリオ特異的な目標を兼ね備えた包括的ユーザプロファイルを構築する。
そこで本研究では,応答生成に先立って高品質な合理性を生成するための目標駆動型意思決定ポリシーを提案し,さらに,教師付き微調整・マルチリワード強化学習による推論と戦略能力の向上を図った。
大規模な実験結果から, UserLM-R1 は競争ベースライン, 特により困難な対向セットよりも優れていた。
関連論文リスト
- AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing [79.0112532518727]
我々はTeleSalesCorpusをリリースした。
次に、デュアルステージアーキテクチャを特徴とする新しいフレームワークであるAI-Salesmanを提案する。
提案したAI-Salesmanは,自動測定と総合的な人的評価の両方において,ベースラインモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-11-15T09:44:42Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。
我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T03:33:20Z) - CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - Reasoning LLMs for User-Aware Multimodal Conversational Agents [3.533721662684487]
社会ロボティクスにおけるパーソナライゼーションは、効果的な人間とロボットの相互作用を促進するために重要である。
本稿では,ユーザ認識型対話エージェントのための新しいフレームワークUSER-LLM R1を提案する。
提案手法では,チェーン・オブ・シンク(CoT)推論モデルを統合し,ユーザの好みや視覚言語モデルを反復的に推測する。
論文 参考訳(メタデータ) (2025-04-02T13:00:17Z) - Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。
USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-26T09:26:54Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。