論文の概要: ShopGym: An Integrated Framework for Realistic Simulation and Scalable Benchmarking of E-Commerce Web Agents
- arxiv url: http://arxiv.org/abs/2605.16116v1
- Date: Fri, 15 May 2026 16:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.358069
- Title: ShopGym: An Integrated Framework for Realistic Simulation and Scalable Benchmarking of E-Commerce Web Agents
- Title(参考訳): ShopGym:EコマースWebエージェントのリアルなシミュレーションとスケーラブルなベンチマークのための統合フレームワーク
- Authors: Chinmay Savadikar, Mingyu Zhao, Yuanzheng Zhu, Han Li, Shuang Xie, Alberto Castelo, Tianfu Wu, Lingyun Wang,
- Abstract要約: ShopGymは、eコマースウェブエージェントの現実的なシミュレーションとスケーラブルなベンチマークのための統合フレームワークである。
ShopArenaは、店舗仕様とステージ化された検証された生成プロセスを通じて、実店舗を自己完結型のサンドボックスショップに変換する。
ShopGuruは7つのスキルカテゴリのベンチマークタスクを合成し、各タスクを店のカタログ、ナビゲーション構造、ポリシー、インタラクション能力に基盤を置く。
- 参考スコア(独自算出の注目度): 12.399936351655917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing and evaluating e-commerce web agents requires environments that preserve meaningful task structure while enabling controllable, reproducible, and scalable scientific comparison. Existing methodologies force a tradeoff: live storefronts provide realism but are non-stationary, difficult to inspect, and irreproducible, while hand-built sandbox benchmarks provide control but cover only a narrow range of layouts, catalogs, policies, and interaction patterns. We argue that the core bottleneck is methodological: the field lacks a scalable way to construct evaluation settings that are simultaneously realistic, diverse, controllable, inspectable, and reproducible. We introduce ShopGym, an integrated framework for realistic simulation and scalable benchmarking of e-commerce web agents. ShopGym is a framework for constructing e-commerce simulation environments and grounded benchmark tasks. Its simulation layer, ShopArena, converts live seed storefronts into self-contained sandbox shops through anonymized shop specifications and a staged, validated generation process. On top of these simulated storefronts, ShopGuru synthesizes benchmark tasks across seven skill categories, grounding each task in the shop's catalog, navigation structure, policies, and interaction affordances. Together, ShopArena and ShopGuru produce self-contained, resettable, inspectable, and stable evaluation artifacts that preserve structural properties and agent-evaluation signals relevant to shopping tasks. We validate the framework through graph-based structural analysis and agent-based behavioral evaluation with 224 generated tasks across six sandbox shops: three constructed with synthetic data and three with real data. Our results show that the synthetic shops preserve key structural properties of live storefronts, with agent performance on synthetic shops positively correlated with performance on live storefronts.
- Abstract(参考訳): eコマースのウェブエージェントの開発と評価には、意味のあるタスク構造を維持しながら、制御可能で再現可能でスケーラブルな科学的比較を可能にする環境が必要である。
ライブストアフロントは現実主義を提供するが、非定常的で、検査が困難で、再現不可能であるのに対して、手作りのサンドボックスベンチマークはコントロールを提供するが、限られた範囲のレイアウト、カタログ、ポリシー、インタラクションパターンのみをカバーする。
フィールドには、同時に現実的で、多様性があり、制御可能で、検査可能で、再現可能な評価設定を構築するためのスケーラブルな方法がありません。
本稿では,eコマースWebエージェントの現実的なシミュレーションとスケーラブルなベンチマークのための統合フレームワークであるShopGymを紹介する。
ShopGymは、Eコマースシミュレーション環境とベンチマークタスクを構築するためのフレームワークである。
シミュレーション層であるShopArenaは、生のシードストアを、匿名のショップ仕様とステージ化された検証された生成プロセスを通じて、自己完結型のサンドボックスショップに変換する。
これらのシミュレートされたストアフロントに加えて、ShopGuruは7つのスキルカテゴリのベンチマークタスクを合成し、各タスクを店のカタログ、ナビゲーション構造、ポリシー、インタラクション能力に基礎を置いている。
ShopArenaとShopGuruは共に、自己完結型、再設定可能、検査可能、安定した評価成果物を作成し、構造的特性とショッピングタスクに関連するエージェント評価信号を保存する。
グラフに基づく構造解析とエージェントによる行動評価を,6つのサンドボックスショップで224個のタスクを生成し,その3つは合成データで構築され,3つは実データで構築された。
以上の結果から, 合成店舗は, 生店舗における重要な構造特性を保ち, 生店舗におけるエージェント性能は生店舗におけるパフォーマンスと正の相関を示した。
関連論文リスト
- Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation [62.51953630639423]
既存のベンチマークには視覚的リアリズムがなく、シミュレーションと現実の間に大きな領域ギャップが生じる。
シミュレーションにおけるロボット操作評価のための,視覚的にリアルなベンチマークであるVISERを提案する。
VISERは、物理ベースのレンダリング(PBR)素材を備えた1000以上の3Dアセットの高忠実度データセットと、それらのアセットから作成される3Dシーンを、レイアウトや生成によって構成する。
論文 参考訳(メタデータ) (2026-05-07T14:13:05Z) - WebForge: Breaking the Realism-Reproducibility-Scalability Trilemma in Browser Agent Benchmark [10.793973999774026]
既存のブラウザエージェントベンチマークは、基本的なトリレンマに直面している: リアルタイムWebサイトベンチマークは、コンテンツドリフトによる欠如、コントロールされた環境は、実際のWebノイズを省いてリアリズムを犠牲にする。
私たちは、このトリレンマを解決する最初の完全に自動化されたフレームワークであるWebForgeを紹介します。
7次元の難易度制御フレームワークは、ナビゲーション深度、視覚的複雑さ、推論困難度などに沿ってタスク設計を構成し、単一の集計スコアを超える体系的な能力プロファイルを可能にする。
論文 参考訳(メタデータ) (2026-04-13T04:45:27Z) - FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - RoomEditor++: A Parameter-Sharing Diffusion Architecture for High-Fidelity Furniture Synthesis [89.26382925677301]
仮想家具の合成は、ホームデザインと電子商取引の応用を大いに約束する。
RoomEditor++は、パラメータ共有デュアル拡散バックボーンを備えた多用途拡散ベースアーキテクチャである。
RoomEditor++は、定量的メトリクス、質的評価、そして人間の嗜好研究の観点から、最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-12-19T13:39:43Z) - DeepShop: A Benchmark for Deep Research Shopping Agents [70.03744154560717]
DeepShopは、複雑なリアルなオンラインショッピング環境でWebエージェントを評価するために設計されたベンチマークである。
5つの人気のあるオンラインショッピングドメインに多様なクエリを生成します。
エージェントの性能をきめ細かな面から評価する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T13:08:17Z) - ConstScene: Dataset and Model for Advancing Robust Semantic Segmentation
in Construction Environments [1.4070907500169874]
本稿では,建設現場に適したセマンティックセグメンテーションデータセットを提案する。
このデータセットは、オブジェクト検出モデルのトレーニングと評価を強化するように設計されている。
論文 参考訳(メタデータ) (2023-12-27T10:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。