論文の概要: SimGym: Traffic-Grounded Browser Agents for Offline A/B Testing in E-Commerce
- arxiv url: http://arxiv.org/abs/2602.01443v1
- Date: Sun, 01 Feb 2026 21:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.786758
- Title: SimGym: Traffic-Grounded Browser Agents for Offline A/B Testing in E-Commerce
- Title(参考訳): SimGym:EコマースにおけるオフラインA/Bテストのためのトラフィック収集ブラウザエージェント
- Authors: Alberto Castelo, Zahra Zanjani Foumani, Ailin Fan, Keat Yang Koay, Vibhor Malik, Yuanzheng Zhu, Han Li, Meysam Feghhi, Ronie Uliana, Shuang Xie, Zhaoyu Zhang, Angelo Ocana Martins, Mingyu Zhao, Francis Pelland, Jonathan Faerman, Nikolas LeBlanc, Aaron Glazer, Andrew McNamara, Lingyun Wang, Zhong Wu,
- Abstract要約: SimGymは、リアルタイムブラウザで動作するLarge Language Modelエージェントをベースとした、トラフィックグラウンドの合成バイヤーを使用した、オフラインA/Bテストのためのスケーラブルなシステムである。
SimGymは、プロダクションインタラクションデータから、ショップごとのバイヤープロファイルとインテントを抽出する。
我々はSimGymを、共同創業者のコントロールの下で主要なeコマースプラットフォーム上での実際のUI変更による実際の人間的な結果に対して検証する。
- 参考スコア(独自算出の注目度): 8.496158383334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A/B testing remains the gold standard for evaluating e-commerce UI changes, yet it diverts traffic, takes weeks to reach significance, and risks harming user experience. We introduce SimGym, a scalable system for rapid offline A/B testing using traffic-grounded synthetic buyers powered by Large Language Model agents operating in a live browser. SimGym extracts per-shop buyer profiles and intents from production interaction data, identifies distinct behavioral archetypes, and simulates cohort-weighted sessions across control and treatment storefronts. We validate SimGym against real human outcomes from real UI changes on a major e-commerce platform under confounder control. Even without alignment post training, SimGym agents achieve state of the art alignment with observed outcome shifts and reduces experiment cycles from weeks to under an hour , enabling rapid experimentation without exposure to real buyers.
- Abstract(参考訳): A/Bテストは、EコマースのUI変更を評価するためのゴールドスタンダードのままだが、トラフィックを分散させ、重要な状態に達するまでに数週間を要し、ユーザエクスペリエンスを損なうリスクがある。
実ブラウザで動作するLarge Language Modelエージェントをベースとした,トラフィックグラウンドの合成バイヤーを用いたオフラインA/BテストのためのスケーラブルなシステムであるSimGymを紹介する。
SimGymは、プロダクションインタラクションデータからショップごとのバイヤープロファイルとインテントを抽出し、異なる振る舞いのアーキタイプを特定し、コントロールと治療の店頭間でコホート重み付きセッションをシミュレートする。
我々はSimGymを、共同創業者のコントロールの下で主要なeコマースプラットフォーム上での実際のUI変更による実際の人間的な結果に対して検証する。
ポストトレーニングのアライメントがなくても、SimGymエージェントは観察された結果のシフトと最先端のアライメントを達成し、実験サイクルを数週間から1時間以内に短縮し、実際の購入者に触れることなく迅速な実験を可能にする。
関連論文リスト
- Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing [54.456400601801704]
A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を提案する。
具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、マルチモーダルおよびマルチページインタラクションを実現する。
モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
論文 参考訳(メタデータ) (2026-01-08T03:33:43Z) - See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents [35.8650712223701]
A/Bテストは、ヒトの大規模でライブなトラフィックに依存しているため、依然として制限されている。
本稿では,ユーザインタラクション行動と実際のWebページを自動的にシミュレートする新しいシステムであるAgentA/Bを提案する。
以上の結果から, エージェントA/Bは人間の行動パターンをエミュレートできる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-13T21:10:56Z) - PAARS: Persona Aligned Agentic Retail Shoppers [2.8737584376365355]
電子商取引では、行動データは意思決定のために収集される。
匿名化された履歴ショッピングデータを自動マイニングすることで、合成ショッピングエージェントを作成するフレームワークを提案する。
本稿では,自動エージェントA/Bテストのためのフレームワークの初期応用について紹介し,その結果と人的結果を比較した。
論文 参考訳(メタデータ) (2025-03-31T15:41:51Z) - CreAgent: Towards Long-Term Evaluation of Recommender System under Platform-Creator Information Asymmetry [55.64992650205645]
大規模言語モデルを用いたクリエーターシミュレーションエージェントであるCreAgentを提案する。
ゲーム理論の信念機構と高速でスローな思考フレームワークを取り入れることで、CreAgentはクリエーターの振る舞いを効果的にシミュレートする。
私たちの信頼性検証実験は、CreAgentが現実世界のプラットフォームとクリエーターの行動とよく一致していることを示している。
論文 参考訳(メタデータ) (2025-02-11T07:09:49Z) - Promptable Closed-loop Traffic Simulation [57.36568236100507]
ProSimはマルチモーダルプロンプト可能なクローズドループトラフィックシミュレーションフレームワークである。
ProSimはクローズドループ方式でトラフィックシナリオをロールアウトし、各エージェントと他のトラフィック参加者とのインタラクションをモデル化する。
高速な交通シミュレーションの研究を支援するため,マルチモーダル・プロンプト・インストラクト・520k(ProSim-Instruct-520k)を開発した。
論文 参考訳(メタデータ) (2024-09-09T17:59:15Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。