論文の概要: Can LLM Agents Simulate Multi-Turn Human Behavior? Evidence from Real Online Customer Behavior Data
- arxiv url: http://arxiv.org/abs/2503.20749v7
- Date: Wed, 08 Oct 2025 20:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.41791
- Title: Can LLM Agents Simulate Multi-Turn Human Behavior? Evidence from Real Online Customer Behavior Data
- Title(参考訳): LLMエージェントはマルチスレッドの人間行動をシミュレートできるか? : リアルオンライン顧客行動データから
- Authors: Yuxuan Lu, Jing Huang, Yan Han, Bingsheng Yao, Sisong Bei, Jiri Gesi, Yaochen Xie, Zheshen, Wang, Qi He, Dakuo Wang,
- Abstract要約: 本研究では,人間の行動を正確にシミュレートする,最先端のLDMの能力の大規模定量的評価を行った。
230,965件のユーザアクションを含む31,865件のオンラインショッピングセッションから得られた実世界データを用いて,プロンプトベースのLCMが人間の行動生成においてわずか11.86%の精度で達成できることを明らかにする。
また, 実クリックスルーデータに対して, モデルの性能を大幅に向上させる手法として, 実クリックスルーデータに対する微調整 LLM の戦略を提示する。
- 参考スコア(独自算出の注目度): 46.65903742010956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research shows that LLM Agents can generate ``believable'' human behaviors via prompt-only methods, and such agents have been increasingly adopted in downstream applications. However, existing evaluation of these agents only focuses on qualitative believability (whether human raters think they are accurate), leaving open questions of whether LLM agents can accurately generate step-by-step actions mimicking a particular human's behavior in a multi-turn interaction task. In this work, we take shopping as a case study and present the first large-scale quantitative evaluation of state-of-the-art LLMs' ability to accurately simulate human behavior. Using real-world data from 31,865 online shopping sessions containing 230,965 user actions, our evaluation reveals that prompt-based LLMs (DeepSeek-R1, Llama, Claude) achieve only 11.86% accuracy in generating human actions, highlighting a substantial gap in actual behavioral accuracy. Through experiments, we also showcase that strategies as simple as fine-tuning LLMs on real human click-through data augmented with synthesized reasoning traces can greatly enhance models' performance. The fine-tuned Qwen2.5-7B achieves 17.26% action generation accuracy and 33.86% F1 score on final purchase prediction, representing substantial improvements of 5.4% and 13.85% over prompt-only baselines. This work establishes the first rigorous benchmark for human behavior simulation and provides actionable insights for developing more accurate LLM agents for future downstream applications.
- Abstract(参考訳): 近年, LLM エージェントは, プロンプトのみの手法により, 「信頼できる」 人間の行動を生成できることが報告されている。
しかしながら、これらのエージェントの既存の評価は質的な信頼性のみに焦点を当てており(人間のレーティングが正確であると考えているかどうか)、LLMエージェントがマルチターンインタラクションタスクにおいて特定の人間の振る舞いを模倣するステップバイステップのアクションを正確に生成できるかどうかというオープンな疑問を残している。
本研究では, ショッピングを事例として, 人間の行動を正確にシミュレートする, 最先端のLCMの能力について, 大規模な定量的評価を行った。
230,965件のユーザアクションを含む31,865件のオンラインショッピングセッションから得られた実世界データから,人間の行動生成におけるプロンプトベースのLCM(DeepSeek-R1,Llama,Claude)の精度は11.86%に過ぎず,実際の行動精度の差が顕著であることがわかった。
実験により, 実クリックスルーデータに対して, モデルの性能を大幅に向上させる方法として, 実クリックスルーデータに対する微調整 LLM の戦略が有用であることを示す。
微調整されたQwen2.5-7Bは17.26%のアクション生成精度と33.86%のF1スコアを最終購入予測で達成し、プロンプトのみのベースラインよりも5.4%と13.85%の大幅な改善を示している。
この研究は人間の行動シミュレーションのための厳密なベンチマークを確立し、将来の下流アプリケーションのためのより正確なLLMエージェントを開発するための実用的な洞察を提供する。
関連論文リスト
- Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。
テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。
我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文 参考訳(メタデータ) (2025-06-10T18:36:31Z) - Can LLMs Simulate Personas with Reversed Performance? A Benchmark for Counterfactual Instruction Following [12.668201122427101]
大規模言語モデル(LLM)は、仮想環境におけるペルソナのシミュレートに広く使われている。
現状のLLMでさえ、逆性能のペルソナをシミュレートできないことを示す。
論文 参考訳(メタデータ) (2025-04-08T22:00:32Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。
GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文 参考訳(メタデータ) (2025-02-17T17:43:08Z) - Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL [7.988692259455583]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測する上で,最大80.40%の精度を達成できる報酬モデルを抽出し,様々な大きさの毒性アライメントLDMについて実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.4999444543328293]
学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:25:40Z) - On the limits of agency in agent-based models [13.130587222524305]
エージェントベースモデリングは複雑なシステムに対する強力な洞察を提供するが、その実用性は計算の制約によって制限されている。
大規模言語モデル(LLM)の最近の進歩は、適応エージェントによるABMを強化する可能性があるが、大規模なシミュレーションへの統合は依然として困難である。
大規模シミュレーションにおいて,行動複雑性と計算効率のバランスをとる手法であるLSMアーチタイプを提案する。
論文 参考訳(メタデータ) (2024-09-14T04:17:24Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。