論文の概要: SimGym: A Framework for A/B Test Simulation in E-Commerce with Traffic-Grounded VLM Agents
- arxiv url: http://arxiv.org/abs/2605.19219v1
- Date: Tue, 19 May 2026 00:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.044791
- Title: SimGym: A Framework for A/B Test Simulation in E-Commerce with Traffic-Grounded VLM Agents
- Title(参考訳): SimGym: トラフィック回避型VLMエージェントによるEコマースにおけるA/Bテストシミュレーションフレームワーク
- Authors: Han Li, Vibhor Malik, Zahra Zanjani Foumani, Alberto Castelo, Shuang Xie, Ailin Fan, Keat Yang Koay, Yuanzheng Zhu, Meysam Feghhi, Ronie Uliana, Zhaoyu Zhang, Angelo Ocana Martins, Mingyu Zhao, Francis Pelland, Jonathan Faerman, Nikolas LeBlanc, Aaron Glazer, Andrew McNamara, Zhong Wu, Lingyun Wang,
- Abstract要約: SimGymは、ライブブラウザで動作するビジョン構造化モデル(VLM)エージェントを使用して、EコマースストアフロントでのA/Bテストのシミュレーションを行うフレームワークである。
実験サイクルを数週間から1時間以内に短縮し、実際の購入者を候補の変種に露出させることなく、迅速な実験を可能にする。
- 参考スコア(独自算出の注目度): 8.496158383333999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A/B testing remains the gold standard for evaluating modifications to e-commerce storefronts, yet it diverts traffic, requires weeks to reach statistical significance, and risks degrading user experience. We present SimGym, a framework for simulating A/B tests on e-commerce storefronts using vision-language model (VLM) agents operating in a live browser. The framework comprises three key components: (a) a traffic-grounded persona generation pipeline that derives per-shop buyer archetypes and intents from production clickstream data; (b) a live-browser agent architecture that combines multimodal perception over visual and browser-structured observations with episodic memory and guardrails to conduct coherent shopping sessions across control and treatment storefronts; and (c) an evaluation protocol that compares simulated outcome shifts with observed shifts in real buyer behavior. We validate SimGym on A/B tests of visually driven UI theme changes from a major e-commerce platform across diverse storefronts and product categories. Empirical results show that SimGym agents achieve strong agreement with observed outcome shifts, attaining 77% directional alignment with add-to-cart shifts observed across interface variants in real-buyer traffic. It reduces experimental cycles from weeks to under an hour, enabling rapid experimentation without exposing real buyers to candidate variants.
- Abstract(参考訳): A/Bテストは、Eコマースの店頭への変更を評価するための金の基準のままだが、トラフィックを分散させ、統計上の意義に到達するのに数週間を要し、ユーザー体験を低下させるリスクがある。
実ブラウザで動作する視覚言語モデル(VLM)エージェントを用いて,eコマース店舗におけるA/Bテストのシミュレーションを行うフレームワークであるSimGymを提案する。
フレームワークには3つの重要なコンポーネントがある。
(a) 生産用クリックストリームデータからショップ購入者ごとの古型及び意図を導出する人格生成パイプライン
b) 視覚的・ブラウザ的に構造化された観察に対するマルチモーダルな認識とエピソード記憶とガードレールを組み合わさり、制御・処理店頭間でコヒーレントなショッピングセッションを行うライブブラウザエージェントアーキテクチャ
(c)シミュレーション結果のシフトと実際の買い手行動の観測結果のシフトを比較する評価プロトコル。
さまざまな店舗や製品カテゴリにわたる主要なeコマースプラットフォームから、視覚的に駆動されるUIテーマの変更のA/Bテストについて、SimGymを検証する。
実験結果から,SimGymエージェントは観測結果のシフトと強い一致を示し,実取引トラフィックにおける界面変種間で観測される加算対カートシフトと77%の方向アライメントが達成された。
実験サイクルを数週間から1時間以内に短縮し、実際の購入者を候補の変種に露出させることなく、迅速な実験を可能にする。
関連論文リスト
- ShopGym: An Integrated Framework for Realistic Simulation and Scalable Benchmarking of E-Commerce Web Agents [12.399936351655917]
ShopGymは、eコマースウェブエージェントの現実的なシミュレーションとスケーラブルなベンチマークのための統合フレームワークである。
ShopArenaは、店舗仕様とステージ化された検証された生成プロセスを通じて、実店舗を自己完結型のサンドボックスショップに変換する。
ShopGuruは7つのスキルカテゴリのベンチマークタスクを合成し、各タスクを店のカタログ、ナビゲーション構造、ポリシー、インタラクション能力に基盤を置く。
論文 参考訳(メタデータ) (2026-05-15T16:00:38Z) - SalesSim: Benchmarking and Aligning Multimodal Language Models as Retail User Simulators [63.68151307455963]
本稿では,マルチモーダル大規模言語モデル(MLLM)の現実的,ペルソナ主導の顧客行動のシミュレート能力を評価するためのフレームワークとテストベッドであるSalesSimを紹介する。
我々は,シミュレータの動作とペルソナ仕様との整合性,および会話品質を測定する。
実験により,UserGRPOは,会話品質を改善しつつ,ベースラインモデルの整合性を13.8%向上させることを示した。
論文 参考訳(メタデータ) (2026-05-08T17:59:23Z) - What Makes a Sale? Rethinking End-to-End Seller--Buyer Retail Dynamics with LLM Agents [22.408631930364788]
RetailSimは、このパイプラインを統一された環境でモデル化するエンドツーエンドの小売シミュレーションフレームワークである。
本稿では,ペルソナ推論,売り手と買い手のインタラクション分析,販売戦略評価など,意思決定指向のユースケースを通じて,その実用性を実証する。
論文 参考訳(メタデータ) (2026-04-06T06:38:35Z) - SimAB: Simulating A/B Tests with Persona-Conditioned AI Agents for Rapid Design Evaluation [3.609531017498719]
我々は、ペルソナ条件のAIエージェントを用いた高速なプライバシー保護シミュレーションとしてA/Bテストを再構成するシステムであるSimABを提案する。
デザインのスクリーンショットと変換の目標が与えられたら、SimABはユーザーペルソナを生成し、それらを好みを述べ、結果を集約し、合理性を合成するエージェントとしてデプロイする。
論文 参考訳(メタデータ) (2026-03-01T10:08:27Z) - SimGym: Traffic-Grounded Browser Agents for Offline A/B Testing in E-Commerce [8.496158383334]
SimGymは、リアルタイムブラウザで動作するLarge Language Modelエージェントをベースとした、トラフィックグラウンドの合成バイヤーを使用した、オフラインA/Bテストのためのスケーラブルなシステムである。
SimGymは、プロダクションインタラクションデータから、ショップごとのバイヤープロファイルとインテントを抽出する。
我々はSimGymを、共同創業者のコントロールの下で主要なeコマースプラットフォーム上での実際のUI変更による実際の人間的な結果に対して検証する。
論文 参考訳(メタデータ) (2026-02-01T21:23:04Z) - Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing [54.456400601801704]
A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を提案する。
具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、マルチモーダルおよびマルチページインタラクションを実現する。
モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
論文 参考訳(メタデータ) (2026-01-08T03:33:43Z) - See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents [35.8650712223701]
A/Bテストは、ヒトの大規模でライブなトラフィックに依存しているため、依然として制限されている。
本稿では,ユーザインタラクション行動と実際のWebページを自動的にシミュレートする新しいシステムであるAgentA/Bを提案する。
以上の結果から, エージェントA/Bは人間の行動パターンをエミュレートできる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-13T21:10:56Z) - TrafficBots: Towards World Models for Autonomous Driving Simulation and
Motion Prediction [149.5716746789134]
我々は,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示した。
動作予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介する。
オープンモーションデータセットの実験は、TrafficBotsが現実的なマルチエージェント動作をシミュレートできることを示している。
論文 参考訳(メタデータ) (2023-03-07T18:28:41Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。