論文の概要: OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation
- arxiv url: http://arxiv.org/abs/2506.05606v1
- Date: Thu, 05 Jun 2025 21:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.244867
- Title: OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation
- Title(参考訳): OPeRA: オンラインショッピング行動シミュレーションにおけるLCMの評価のための観察, ペルソナ, ライナー, 行動のデータセット
- Authors: Ziyi Wang, Yuxuan Lu, Wenbo Li, Amirali Amini, Bo Sun, Yakov Bart, Weimin Lyu, Jiri Gesi, Tian Wang, Jing Huang, Yu Su, Upol Ehsan, Malihe Alikhani, Toby Jia-Jun Li, Lydia Chilton, Dakuo Wang,
- Abstract要約: OPERAは、ユーザペルソナ、ブラウザの観察、きめ細かいWebアクション、そして自己報告されたジャストインタイム論理を包括的にキャプチャする最初のパブリックデータセットである。
我々は,現在のLCMがユーザの次の行動と合理的性をどの程度予測できるかを評価するための最初のベンチマークを確立する。
- 参考スコア(独自算出の注目度): 56.47029531207105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can large language models (LLMs) accurately simulate the next web action of a specific user? While LLMs have shown promising capabilities in generating ``believable'' human behaviors, evaluating their ability to mimic real user behaviors remains an open challenge, largely due to the lack of high-quality, publicly available datasets that capture both the observable actions and the internal reasoning of an actual human user. To address this gap, we introduce OPERA, a novel dataset of Observation, Persona, Rationale, and Action collected from real human participants during online shopping sessions. OPERA is the first public dataset that comprehensively captures: user personas, browser observations, fine-grained web actions, and self-reported just-in-time rationales. We developed both an online questionnaire and a custom browser plugin to gather this dataset with high fidelity. Using OPERA, we establish the first benchmark to evaluate how well current LLMs can predict a specific user's next action and rationale with a given persona and <observation, action, rationale> history. This dataset lays the groundwork for future research into LLM agents that aim to act as personalized digital twins for human.
- Abstract(参考訳): 大きな言語モデル(LLM)は、特定のユーザの次のWebアクションを正確にシミュレートできますか?
LLMは‘信頼性の高い’人間の振る舞いを生成する有望な能力を示しているが、実際のユーザの振る舞いを模倣する能力を評価することはオープンな課題であり、多くの場合、観測可能なアクションと実際のユーザの内部的推論の両方をキャプチャする、高品質で公開可能なデータセットが欠如している。
このギャップに対処するために、オンラインショッピングセッション中に実際の人間の参加者から収集された観察、人格、行動の新しいデータセットであるOPERAを紹介した。
OPERAは、ユーザペルソナ、ブラウザ観察、きめ細かいWebアクション、自己報告されたジャスト・イン・タイムの合理性など、包括的にキャプチャする最初のパブリックデータセットである。
オンラインアンケートとカスタムブラウザプラグインの両方を開発し、このデータセットを高い忠実度で収集した。
OPERA を用いて,現在の LLM が特定のユーザの次の行動の予測と,与えられたペルソナと<オブザーブメント,アクション,合理化>履歴との合理性を評価するための最初のベンチマークを確立する。
このデータセットは、人間のためのパーソナライズされたデジタル双生児として振る舞うLLMエージェントの研究の基盤となる。
関連論文リスト
- Exploring Human-Like Thinking in Search Simulations with Large Language Models [9.825091149361208]
ユーザ検索行動のシミュレーションは情報検索において重要な課題である。
大規模言語モデル(LLM)の最近の進歩は、人間のようなアクションを生成する新しい可能性を開く。
我々は,LLMを利用してユーザの隠れ認知過程をシミュレートすることで,人間的な思考を探索シミュレーションに統合することを検討する。
論文 参考訳(メタデータ) (2025-04-10T09:04:58Z) - Prompting is Not All You Need! Evaluating LLM Agent Simulation Methodologies with Real-World Online Customer Behavior Data [62.61900377170456]
人間の行動のシミュレーションにおいて「主観的信頼性」よりも「LLMの客観的精度」を評価することに重点を置いている。
本稿では,Web ショッピング行動生成の課題に対して,最先端 LLM の総合評価を行った。
論文 参考訳(メタデータ) (2025-03-26T17:33:27Z) - Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。
本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。
しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文 参考訳(メタデータ) (2024-09-02T08:28:19Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。