論文の概要: OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation
- arxiv url: http://arxiv.org/abs/2506.05606v3
- Date: Mon, 07 Jul 2025 17:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.385835
- Title: OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation
- Title(参考訳): OPeRA: オンラインショッピング行動シミュレーションにおけるLCMの評価のための観察, ペルソナ, ライナー, 行動のデータセット
- Authors: Ziyi Wang, Yuxuan Lu, Wenbo Li, Amirali Amini, Bo Sun, Yakov Bart, Weimin Lyu, Jiri Gesi, Tian Wang, Jing Huang, Yu Su, Upol Ehsan, Malihe Alikhani, Toby Jia-Jun Li, Lydia Chilton, Dakuo Wang,
- Abstract要約: OPERAは、ユーザペルソナ、ブラウザの観察、きめ細かいWebアクション、そして自己報告されたジャストインタイム論理を包括的にキャプチャする最初のパブリックデータセットである。
我々は,現在のLCMがユーザの次の行動と合理的性をどの程度予測できるかを評価するための最初のベンチマークを確立する。
- 参考スコア(独自算出の注目度): 56.47029531207105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can large language models (LLMs) accurately simulate the next web action of a specific user? While LLMs have shown promising capabilities in generating ``believable'' human behaviors, evaluating their ability to mimic real user behaviors remains an open challenge, largely due to the lack of high-quality, publicly available datasets that capture both the observable actions and the internal reasoning of an actual human user. To address this gap, we introduce OPERA, a novel dataset of Observation, Persona, Rationale, and Action collected from real human participants during online shopping sessions. OPERA is the first public dataset that comprehensively captures: user personas, browser observations, fine-grained web actions, and self-reported just-in-time rationales. We developed both an online questionnaire and a custom browser plugin to gather this dataset with high fidelity. Using OPERA, we establish the first benchmark to evaluate how well current LLMs can predict a specific user's next action and rationale with a given persona and <observation, action, rationale> history. This dataset lays the groundwork for future research into LLM agents that aim to act as personalized digital twins for human.
- Abstract(参考訳): 大きな言語モデル(LLM)は、特定のユーザの次のWebアクションを正確にシミュレートできますか?
LLMは‘信頼性の高い’人間の振る舞いを生成する有望な能力を示しているが、実際のユーザの振る舞いを模倣する能力を評価することはオープンな課題であり、多くの場合、観測可能なアクションと実際のユーザの内部的推論の両方をキャプチャする、高品質で公開可能なデータセットが欠如している。
このギャップに対処するために、オンラインショッピングセッション中に実際の人間の参加者から収集された観察、人格、行動の新しいデータセットであるOPERAを紹介した。
OPERAは、ユーザペルソナ、ブラウザ観察、きめ細かいWebアクション、自己報告されたジャスト・イン・タイムの合理性など、包括的にキャプチャする最初のパブリックデータセットである。
オンラインアンケートとカスタムブラウザプラグインの両方を開発し、このデータセットを高い忠実度で収集した。
OPERA を用いて,現在の LLM が特定のユーザの次の行動の予測と,与えられたペルソナと<オブザーブメント,アクション,合理化>履歴との合理性を評価するための最初のベンチマークを確立する。
このデータセットは、人間のためのパーソナライズされたデジタル双生児として振る舞うLLMエージェントの研究の基盤となる。
関連論文リスト
- Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。
この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文 参考訳(メタデータ) (2026-03-04T15:42:43Z) - HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - AlignUSER: Human-Aligned LLM Agents via World Models for Recommender System Evaluation [0.7031557790463293]
人間のインタラクションから世界モデル駆動エージェントを学習するフレームワークであるAlignを紹介する。
実証に関する反事実的軌跡を生成し, LLMに人間の選択と判断を比較し, 準最適行動を特定し, 教訓を抽出するよう促す。
論文 参考訳(メタデータ) (2026-01-02T03:01:33Z) - Few-Shot Inference of Human Perceptions of Robot Performance in Social Navigation Scenarios [1.5415050466360671]
本稿では,大規模言語モデルによる数発の学習機能を活用し,ロボットがユーザのパフォーマンスに対する認識をいかに正確に予測できるかを改善することを提案する。
この作業は、ユーザ中心のフィードバックを通じて、スケーラブルな方法でロボットの動作を改善するための道を開く。
論文 参考訳(メタデータ) (2025-12-17T23:06:36Z) - See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - Web-Browsing LLMs Can Access Social Media Profiles and Infer User Demographics [7.849709311008473]
大規模言語モデル(LLM)は伝統的に静的トレーニングデータに依存しており、その知識を固定スナップショットに制限している。
近年のLLMはウェブ閲覧機能を備えており、リアルタイム情報検索やライブウェブコンテンツの多段階推論が可能になっている。
本稿では,ウェブブラウジング LLM がユーザ名のみを付与したソーシャルメディア利用者の人口統計特性を推測できるかどうかを評価する。
これらのモデルがソーシャルメディアのコンテンツにアクセスでき、適切な精度でユーザー人口を予測できることを示す。
論文 参考訳(メタデータ) (2025-07-16T16:21:01Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Exploring Human-Like Thinking in Search Simulations with Large Language Models [9.825091149361208]
ユーザ検索行動のシミュレーションは情報検索において重要な課題である。
大規模言語モデル(LLM)の最近の進歩は、人間のようなアクションを生成する新しい可能性を開く。
我々は,LLMを利用してユーザの隠れ認知過程をシミュレートすることで,人間的な思考を探索シミュレーションに統合することを検討する。
論文 参考訳(メタデータ) (2025-04-10T09:04:58Z) - Prompting is Not All You Need! Evaluating LLM Agent Simulation Methodologies with Real-World Online Customer Behavior Data [62.61900377170456]
人間の行動のシミュレーションにおいて「主観的信頼性」よりも「LLMの客観的精度」を評価することに重点を置いている。
本稿では,Web ショッピング行動生成の課題に対して,最先端 LLM の総合評価を行った。
論文 参考訳(メタデータ) (2025-03-26T17:33:27Z) - Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。
GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文 参考訳(メタデータ) (2025-02-17T17:43:08Z) - Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。
本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。
しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文 参考訳(メタデータ) (2024-09-02T08:28:19Z) - CXSimulator: A User Behavior Simulation using LLM Embeddings for Web-Marketing Campaign Assessment [6.405046045596434]
本稿では,ユーザ行動シミュレーションを用いて,未検証のWebマーケティングキャンペーンの効果を評価するための新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)を用いて,ユーザの行動履歴におけるさまざまな事象を表現する。例えば,アイテムの閲覧,クーポンの適用,あるいはアイテムの購入などである。
我々は、この遷移予測モデルを利用して、新しいキャンペーンや製品が提示されると、ユーザーがどう反応するかをシミュレートする。
論文 参考訳(メタデータ) (2024-07-31T12:22:40Z) - From Persona to Personalization: A Survey on Role-Playing Language Agents [52.783043059715546]
大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭を後押ししている。
RPLAは、人間の類似性と鮮明なロールプレイングパフォーマンスの素晴らしい感覚を達成します。
彼らは感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタント、コピロなど、多くのAI応用を触媒してきた。
論文 参考訳(メタデータ) (2024-04-28T15:56:41Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。