論文の概要: AgenticShop: Benchmarking Agentic Product Curation for Personalized Web Shopping
- arxiv url: http://arxiv.org/abs/2602.12315v1
- Date: Thu, 12 Feb 2026 17:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.711774
- Title: AgenticShop: Benchmarking Agentic Product Curation for Personalized Web Shopping
- Title(参考訳): AgenticShop: パーソナライズされたWebショッピングのためのエージェント製品キュレーションのベンチマーク
- Authors: Sunghwan Kim, Ryang Heo, Yongsik Seo, Jinyoung Yeo, Dongha Lee,
- Abstract要約: 我々は、オープンウェブ環境におけるパーソナライズされた製品キュレーションにおけるエージェントシステム評価のための最初のベンチマークであるAgenticShopを紹介する。
提案手法は,現実的なショッピングシナリオ,多様なユーザプロファイル,検証可能なチェックリストによるパーソナライズ評価フレームワークを特徴とする。
- 参考スコア(独自算出の注目度): 20.52047960513448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of e-commerce has made web shopping platforms key gateways for customers navigating the vast digital marketplace. Yet this rapid expansion has led to a noisy and fragmented information environment, increasing cognitive burden as shoppers explore and purchase products online. With promising potential to alleviate this challenge, agentic systems have garnered growing attention for automating user-side tasks in web shopping. Despite significant advancements, existing benchmarks fail to comprehensively evaluate how well agentic systems can curate products in open-web settings. Specifically, they have limited coverage of shopping scenarios, focusing only on simplified single-platform lookups rather than exploratory search. Moreover, they overlook personalization in evaluation, leaving unclear whether agents can adapt to diverse user preferences in realistic shopping contexts. To address this gap, we present AgenticShop, the first benchmark for evaluating agentic systems on personalized product curation in open-web environment. Crucially, our approach features realistic shopping scenarios, diverse user profiles, and a verifiable, checklist-driven personalization evaluation framework. Through extensive experiments, we demonstrate that current agentic systems remain largely insufficient, emphasizing the need for user-side systems that effectively curate tailored products across the modern web.
- Abstract(参考訳): eコマースの普及により、Webショッピングプラットフォームは、巨大なデジタルマーケットプレースをナビゲートする顧客にとって重要なゲートウェイとなっている。
しかし、この急速な拡大により、ノイズと断片化された情報環境が生まれ、買い物客が商品をオンラインで探したり購入したりすることで認知的負担が増大した。
この課題を緩和する有望な可能性を秘めたエージェントシステムは,Webショッピングにおけるユーザ側タスクの自動化に注目が集まっている。
大幅な進歩にもかかわらず、既存のベンチマークでは、エージェントシステムがいかにオープンなWeb設定で製品をキュレートできるかを包括的に評価することができない。
具体的には,探索探索ではなく,単一プラットフォーム検索の簡易化にのみ焦点を絞った,ショッピングシナリオのカバー範囲が限られている。
さらに、評価におけるパーソナライズを見落とし、エージェントがリアルなショッピングコンテキストにおいて多様なユーザー嗜好に適応できるかどうかも不明である。
このギャップに対処するために、オープンウェブ環境におけるパーソナライズされた製品キュレーションにおけるエージェントシステム評価のための最初のベンチマークであるAgenticShopを提案する。
当社のアプローチは,現実的なショッピングシナリオ,多様なユーザプロファイル,検証可能なチェックリストによるパーソナライズ評価フレームワークを備えている。
大規模な実験を通じて、現在のエージェントシステムは依然としてほとんど不十分であり、現代のウェブ全体にわたって効果的にカスタマイズされた製品をキュレートするユーザ側システムの必要性を強調した。
関連論文リスト
- A Functionality-Grounded Benchmark for Evaluating Web Agents in E-commerce Domains [23.412858949638263]
電子商取引分野の現在のベンチマークは2つの大きな問題に直面している。
主に製品検索のタスクに重点を置いており、現実世界のeコマースプラットフォームが提供する幅広い機能を捉えていない。
幅広いタスクをカバーするユーザクエリを生成するために,Amazon-Benchという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-18T21:58:43Z) - KiseKloset: Comprehensive System For Outfit Retrieval, Recommendation, And Try-On [15.775881888811018]
そこで我々は,服の検索,レコメンデーション,試着のための新しい総合的なKiseKlosetシステムを提案する。
本稿では,多様なカテゴリから補完的な項目を推薦するトランスフォーマーアーキテクチャを提案する。
我々は、リアルタイム操作、メモリ効率、リアルな出力の維持が可能な軽量で効率的な仮想試行フレームワークを採用している。
論文 参考訳(メタデータ) (2025-06-30T02:25:39Z) - DeepShop: A Benchmark for Deep Research Shopping Agents [70.03744154560717]
DeepShopは、複雑なリアルなオンラインショッピング環境でWebエージェントを評価するために設計されたベンチマークである。
5つの人気のあるオンラインショッピングドメインに多様なクエリを生成します。
エージェントの性能をきめ細かな面から評価する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T13:08:17Z) - An Illusion of Progress? Assessing the Current State of Web Agents [61.742657650092845]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。
結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。
オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文 参考訳(メタデータ) (2025-04-02T05:51:29Z) - Building a Scalable, Effective, and Steerable Search and Ranking Platform [0.13107669223114085]
現代のeコマースプラットフォームは膨大な製品選択を提供しており、顧客が好きな商品を見つけるのが難しくなっている。
これはeコマースプラットフォームが、ほぼリアルタイムでスケーラブルで適応可能なパーソナライズされたランキングと検索システムを持つための鍵である。
さまざまなユースケースで再利用可能な、パーソナライズされた、ほぼリアルタイムなランキングプラットフォームを提示する。
論文 参考訳(メタデータ) (2024-09-04T16:29:25Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - OPAM: Online Purchasing-behavior Analysis using Machine learning [0.8121462458089141]
本稿では,教師なし・教師なし・半教師付き学習手法を用いた顧客の購買行動分析システムを提案する。
提案システムは,顧客カテゴリやクラスタを特定するために,セッションおよびユーザジャーニーレベルの購買行動を分析する。
論文 参考訳(メタデータ) (2021-02-02T17:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。