論文の概要: AgenticShop: Benchmarking Agentic Product Curation for Personalized Web Shopping
- arxiv url: http://arxiv.org/abs/2602.12315v1
- Date: Thu, 12 Feb 2026 17:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.711774
- Title: AgenticShop: Benchmarking Agentic Product Curation for Personalized Web Shopping
- Title(参考訳): AgenticShop: パーソナライズされたWebショッピングのためのエージェント製品キュレーションのベンチマーク
- Authors: Sunghwan Kim, Ryang Heo, Yongsik Seo, Jinyoung Yeo, Dongha Lee,
- Abstract要約: 我々は、オープンウェブ環境におけるパーソナライズされた製品キュレーションにおけるエージェントシステム評価のための最初のベンチマークであるAgenticShopを紹介する。
提案手法は,現実的なショッピングシナリオ,多様なユーザプロファイル,検証可能なチェックリストによるパーソナライズ評価フレームワークを特徴とする。
- 参考スコア(独自算出の注目度): 20.52047960513448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of e-commerce has made web shopping platforms key gateways for customers navigating the vast digital marketplace. Yet this rapid expansion has led to a noisy and fragmented information environment, increasing cognitive burden as shoppers explore and purchase products online. With promising potential to alleviate this challenge, agentic systems have garnered growing attention for automating user-side tasks in web shopping. Despite significant advancements, existing benchmarks fail to comprehensively evaluate how well agentic systems can curate products in open-web settings. Specifically, they have limited coverage of shopping scenarios, focusing only on simplified single-platform lookups rather than exploratory search. Moreover, they overlook personalization in evaluation, leaving unclear whether agents can adapt to diverse user preferences in realistic shopping contexts. To address this gap, we present AgenticShop, the first benchmark for evaluating agentic systems on personalized product curation in open-web environment. Crucially, our approach features realistic shopping scenarios, diverse user profiles, and a verifiable, checklist-driven personalization evaluation framework. Through extensive experiments, we demonstrate that current agentic systems remain largely insufficient, emphasizing the need for user-side systems that effectively curate tailored products across the modern web.
- Abstract(参考訳): eコマースの普及により、Webショッピングプラットフォームは、巨大なデジタルマーケットプレースをナビゲートする顧客にとって重要なゲートウェイとなっている。
しかし、この急速な拡大により、ノイズと断片化された情報環境が生まれ、買い物客が商品をオンラインで探したり購入したりすることで認知的負担が増大した。
この課題を緩和する有望な可能性を秘めたエージェントシステムは,Webショッピングにおけるユーザ側タスクの自動化に注目が集まっている。
大幅な進歩にもかかわらず、既存のベンチマークでは、エージェントシステムがいかにオープンなWeb設定で製品をキュレートできるかを包括的に評価することができない。
具体的には,探索探索ではなく,単一プラットフォーム検索の簡易化にのみ焦点を絞った,ショッピングシナリオのカバー範囲が限られている。
さらに、評価におけるパーソナライズを見落とし、エージェントがリアルなショッピングコンテキストにおいて多様なユーザー嗜好に適応できるかどうかも不明である。
このギャップに対処するために、オープンウェブ環境におけるパーソナライズされた製品キュレーションにおけるエージェントシステム評価のための最初のベンチマークであるAgenticShopを提案する。
当社のアプローチは,現実的なショッピングシナリオ,多様なユーザプロファイル,検証可能なチェックリストによるパーソナライズ評価フレームワークを備えている。
大規模な実験を通じて、現在のエージェントシステムは依然としてほとんど不十分であり、現代のウェブ全体にわたって効果的にカスタマイズされた製品をキュレートするユーザ側システムの必要性を強調した。
関連論文リスト
- Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets [74.91125572848439]
本稿では,サービスエージェントが消費者を代表し,サービスエージェントが競合するビジネスを代表する2面のエージェントマーケットプレースについて検討する。
この環境では、ユーティリティエージェントが達成する行動バイアス、操作に対する脆弱性、検索メカニズムが市場の結果をどのように形作るか、といった主要な市場ダイナミクスを研究することができる。
実験の結果、フロンティアモデルは最適な福祉に近づくことができるが、理想的な探索条件下でのみ適用可能であることが判明した。
論文 参考訳(メタデータ) (2025-10-27T18:35:59Z) - A Functionality-Grounded Benchmark for Evaluating Web Agents in E-commerce Domains [23.412858949638263]
電子商取引分野の現在のベンチマークは2つの大きな問題に直面している。
主に製品検索のタスクに重点を置いており、現実世界のeコマースプラットフォームが提供する幅広い機能を捉えていない。
幅広いタスクをカバーするユーザクエリを生成するために,Amazon-Benchという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-18T21:58:43Z) - A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [53.37728204835912]
既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。
近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。
この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-08-10T16:07:32Z) - KiseKloset: Comprehensive System For Outfit Retrieval, Recommendation, And Try-On [15.775881888811018]
そこで我々は,服の検索,レコメンデーション,試着のための新しい総合的なKiseKlosetシステムを提案する。
本稿では,多様なカテゴリから補完的な項目を推薦するトランスフォーマーアーキテクチャを提案する。
我々は、リアルタイム操作、メモリ効率、リアルな出力の維持が可能な軽量で効率的な仮想試行フレームワークを採用している。
論文 参考訳(メタデータ) (2025-06-30T02:25:39Z) - DeepShop: A Benchmark for Deep Research Shopping Agents [70.03744154560717]
DeepShopは、複雑なリアルなオンラインショッピング環境でWebエージェントを評価するために設計されたベンチマークである。
5つの人気のあるオンラインショッピングドメインに多様なクエリを生成します。
エージェントの性能をきめ細かな面から評価する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T13:08:17Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - An Illusion of Progress? Assessing the Current State of Web Agents [61.742657650092845]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。
結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。
オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文 参考訳(メタデータ) (2025-04-02T05:51:29Z) - Building a Scalable, Effective, and Steerable Search and Ranking Platform [0.13107669223114085]
現代のeコマースプラットフォームは膨大な製品選択を提供しており、顧客が好きな商品を見つけるのが難しくなっている。
これはeコマースプラットフォームが、ほぼリアルタイムでスケーラブルで適応可能なパーソナライズされたランキングと検索システムを持つための鍵である。
さまざまなユースケースで再利用可能な、パーソナライズされた、ほぼリアルタイムなランキングプラットフォームを提示する。
論文 参考訳(メタデータ) (2024-09-04T16:29:25Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - OPAM: Online Purchasing-behavior Analysis using Machine learning [0.8121462458089141]
本稿では,教師なし・教師なし・半教師付き学習手法を用いた顧客の購買行動分析システムを提案する。
提案システムは,顧客カテゴリやクラスタを特定するために,セッションおよびユーザジャーニーレベルの購買行動を分析する。
論文 参考訳(メタデータ) (2021-02-02T17:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。