論文の概要: UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.19736v1
- Date: Wed, 24 Sep 2025 03:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.680654
- Title: UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
- Title(参考訳): UserRL:強化学習による対話型ユーザ中心エージェントの訓練
- Authors: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。
我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
- 参考スコア(独自算出の注目度): 104.63494870852894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown promise in training agentic models that move beyond static benchmarks to engage in dynamic, multi-turn interactions. Yet, the ultimate value of such agents lies in their ability to assist users, a setting where diversity and dynamics of user interaction pose challenges. In this work, we propose UserRL, a unified framework for training and evaluating user-centric abilities through standardized gym environments paired with simulated users. We systematically vary turn-level reward assignment and trajectory-level score calculation to analyze how different formulations affect learning under the GRPO algorithm. Our experiments across Qwen3 models reveal three key findings: (i) SFT cold start is critical for unlocking initial interaction ability and enabling sustained RL improvements; (ii) deliberate trajectory scoring yields more efficient and effective multi-turn interactions; and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training, open-source simulators (e.g., Qwen3-32B) remain a cost-effective and transferable option. Together, these results highlight that careful design of reward shaping and user simulation choice is as crucial as model scale, and establish UserRL as a practical pathway for developing robust user-centric agentic models. All codes and data are public for future research.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、静的ベンチマークを超えて動的でマルチターンなインタラクションを行うエージェントモデルのトレーニングにおいて、有望であることを示している。
しかし、そのようなエージェントの究極の価値は、ユーザを支援する能力にある。
本研究では,シミュレートされたユーザとペアリングした標準化されたジム環境を通じて,ユーザ中心能力のトレーニングと評価を行う統合フレームワークであるUserRLを提案する。
我々は,GRPOアルゴリズムの下での学習において,異なる定式化がどのような影響を及ぼすかを解析するために,ターンレベルの報酬割当と軌道レベルのスコア計算を体系的に変更する。
Qwen3モデルに対する我々の実験では、3つの重要な発見が明らかになった。
i) SFTコールドスタートは、初期相互作用能力を開放し、持続的なRL改善を可能にするために重要である。
(二)故意軌道スコアリングは、より効率的で効果的な多ターン相互作用をもたらす。
(iii) より強力なシミュレーションユーザ (例: GPT-4o) はトレーニングを容易にする一方で,オープンソースシミュレータ (例: Qwen3-32B) は費用対効果と転送可能な選択肢である。
これらの結果から,報酬形成とユーザシミュレーションの選択はモデルスケールと同じくらい重要であり,堅牢なユーザ中心のエージェントモデルを開発するための実践的経路としてユーザRLを確立することが示唆された。
すべてのコードとデータは、将来の研究のために公開されている。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - Efficient Preference-Based Reinforcement Learning Using Learned Dynamics
Models [13.077993395762185]
優先度に基づく強化学習(PbRL)は、ロボットが個人の好みに基づいてタスクを実行することを学習できるようにする。
PbRLを実行する際に学習力学モデルを使用することの利点と課題について検討する。
論文 参考訳(メタデータ) (2023-01-11T22:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。