Fugu-MT 論文翻訳(概要): Customer-R1: Personalized Simulation of Human Behaviors via RL-based LLM Agent in Online Shopping

論文の概要: Customer-R1: Personalized Simulation of Human Behaviors via RL-based LLM Agent in Online Shopping

arxiv url: http://arxiv.org/abs/2510.07230v2
Date: Sat, 18 Oct 2025 04:00:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:10.934162
Title: Customer-R1: Personalized Simulation of Human Behaviors via RL-based LLM Agent in Online Shopping
Title（参考訳）: 顧客R1:オンラインショッピングにおけるRL型LLMエージェントによる人間行動のパーソナライズされたシミュレーション
Authors: Ziyi Wang, Yuxuan Lu, Yimeng Zhang, Jing Huang, Dakuo Wang,
Abstract要約: オンラインショッピング環境におけるユーザ行動のパーソナライズとステップワイズを行うためのRLベースの手法であるCustomer-R1を紹介する。我々の方針は明示的なペルソナに基づいており、行動正当性報酬信号による次のステップの合理化と行動生成を最適化する。
参考スコア（独自算出の注目度）: 27.626024821315486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Simulating step-wise human behavior with Large Language Models (LLMs) has become an emerging research direction, enabling applications in various practical domains. While prior methods, including prompting, supervised fine-tuning (SFT), and reinforcement learning (RL), have shown promise in modeling step-wise behavior, they primarily learn a population-level policy without conditioning on a user's persona, yielding generic rather than personalized simulations. In this work, we pose a critical question: how can LLM agents better simulate personalized user behavior? We introduce Customer-R1, an RL-based method for personalized, step-wise user behavior simulation in online shopping environments. Our policy is conditioned on an explicit persona, and we optimize next-step rationale and action generation via action correctness reward signals. Experiments on the OPeRA dataset emonstrate that Customer-R1 not only significantly outperforms prompting and SFT-based baselines in next-action prediction tasks, but also better matches users' action distribution, indicating higher fidelity in personalized behavior simulation.
Abstract（参考訳）: 大規模言語モデル(LLM)による段階的人間行動のシミュレーションは、様々な実践領域での応用を可能にする新たな研究方向となっている。プロンプト,教師付き微調整(SFT),強化学習(RL)といった従来の手法は,ステップワイズ行動のモデル化において有望であるが,主にユーザのペルソナを条件付けせずに集団レベルの政策を学習し,パーソナライズされたシミュレーションではなくジェネリックになる。 LLMエージェントは、どのようにパーソナライズされたユーザの振る舞いをシミュレートできるか? オンラインショッピング環境におけるユーザ行動のパーソナライズとステップワイズを行うためのRLベースの手法であるCustomer-R1を紹介する。我々の方針は明示的なペルソナに基づいており、行動正当性報酬信号による次のステップの合理化と行動生成を最適化する。 OPeRAデータセットの実験では、顧客-R1は、次のアクション予測タスクにおいてプロンプトとSFTベースのベースラインを著しく上回るだけでなく、ユーザの行動分布とよく一致し、パーソナライズされた行動シミュレーションの忠実度が高いことを示す。

関連論文リスト

SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文参考訳（メタデータ） (2025-10-20T19:53:02Z)
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文参考訳（メタデータ） (2025-10-20T13:14:38Z)
Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning [35.83999932977034]
エージェントの振る舞いを人間の好みや評価指標とよりよく整合させるため,次世代の予測モデルに適した新しいR1型強化微調整パラダイムを提案する。提案手法では、分布アライメントを改善するためのメトリック指向ポリシー最適化アルゴリズムと、スーパービジョンファインチューニング(SFT)と強化ファインチューニング(RFT)を交互に行う反復的な"SFT-RFT-SFT"トレーニング戦略を導入する。 Open Sim Agents Challengeの結果、SMART-R1は総合リアリズムメタスコア0.7858で最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-09-28T17:36:13Z)
Implicit Behavioral Alignment of Language Agents in High-Stakes Crowd Simulations [3.0112218223206173]
言語駆動型生成エージェントは、対人訓練からグローバルな政策作成を支援するまで、変革的な利用で社会シミュレーションを可能にした。近年の研究では、生成的エージェントの行動が、専門家の期待や実世界のデータから逸脱することが多いことが示唆されている。本稿では,レウィンの行動方程式に基づく分布整合問題として定式化されたPEBA(Persona-Environment Behavioral Alignment)という理論的枠組みを紹介する。本稿では, エージェントペルソナを反復的に洗練する, LLMに基づく最適化アルゴリズムであるPersonaEvolve(PEvo)を提案する。
論文参考訳（メタデータ） (2025-09-19T22:35:13Z)
Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning [27.226155951073064]
Shop-R1は大規模言語モデル(LLM)の推論能力向上を目的とした新しい強化学習フレームワークである合理的な生成には、内部モデル信号(例えば、ロジット分布)を活用して、推論プロセスを自己管理的に導く。行動予測のために,報酬ハッキングを防止するため,スケーリングの難しさを考慮した階層型報酬構造を提案する。
論文参考訳（メタデータ） (2025-07-23T18:10:43Z)
OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation [56.47029531207105]
OPERAは、ユーザペルソナ、ブラウザの観察、きめ細かいWebアクション、そして自己報告されたジャストインタイム論理を包括的にキャプチャする最初のパブリックデータセットである。我々は,現在のLCMがユーザの次の行動と合理的性をどの程度予測できるかを評価するための最初のベンチマークを確立する。
論文参考訳（メタデータ） (2025-06-05T21:37:49Z)
Prompting is Not All You Need! Evaluating LLM Agent Simulation Methodologies with Real-World Online Customer Behavior Data [62.61900377170456]
人間の行動のシミュレーションにおいて「主観的信頼性」よりも「LLMの客観的精度」を評価することに重点を置いている。本稿では,Web ショッピング行動生成の課題に対して,最先端 LLM の総合評価を行った。
論文参考訳（メタデータ） (2025-03-26T17:33:27Z)
Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。 LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文参考訳（メタデータ） (2025-01-23T16:37:44Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文参考訳（メタデータ） (2023-06-05T02:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。