論文の概要: ShoppingComp: Are LLMs Really Ready for Your Shopping Cart?
- arxiv url: http://arxiv.org/abs/2511.22978v1
- Date: Fri, 28 Nov 2025 08:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.824109
- Title: ShoppingComp: Are LLMs Really Ready for Your Shopping Cart?
- Title(参考訳): ショッピングコンプリート:LLMはあなたのショッピングカートに本当に準備ができているか?
- Authors: Huaixiao Tou, Ying Zeng, Cong Ma, Muzhi Li, Minghao Li, Weijie Yuan, He Zhang, Kai Jia,
- Abstract要約: ShoppingCompは、LLMを利用したショッピングエージェントを厳格に評価するための、現実的なベンチマークである。
実際の製品の保証と容易な検証性を保証するという原則の下で、非常に複雑なタスクを導入します。
ベンチマークには120のタスクと1,026のシナリオが含まれており、35人の専門家が本物のショッピングニーズを反映して実施している。
- 参考スコア(独自算出の注目度): 21.021833054625095
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present ShoppingComp, a challenging real-world benchmark for rigorously evaluating LLM-powered shopping agents on three core capabilities: precise product retrieval, expert-level report generation, and safety critical decision making. Unlike prior e-commerce benchmarks, ShoppingComp introduces highly complex tasks under the principle of guaranteeing real products and ensuring easy verifiability, adding a novel evaluation dimension for identifying product safety hazards alongside recommendation accuracy and report quality. The benchmark comprises 120 tasks and 1,026 scenarios, curated by 35 experts to reflect authentic shopping needs. Results reveal stark limitations of current LLMs: even state-of-the-art models achieve low performance (e.g., 11.22% for GPT-5, 3.92% for Gemini-2.5-Flash). These findings highlight a substantial gap between research benchmarks and real-world deployment, where LLMs make critical errors such as failure to identify unsafe product usage or falling for promotional misinformation, leading to harmful recommendations. ShoppingComp fills the gap and thus establishes a new standard for advancing reliable and practical agents in e-commerce.
- Abstract(参考訳): ShoppingCompは、LSMを利用したショッピングエージェントを、正確な製品検索、エキスパートレベルのレポート生成、安全クリティカルな意思決定の3つの機能で厳格に評価するための、現実的なベンチマークである。
従来のeコマースベンチマークとは異なり、ShoppingCompは、実際の製品の保証と容易な検証性を保証するという原則の下で、非常に複雑なタスクを導入し、推奨精度とレポート品質とともに製品安全性のハザードを識別するための新たな評価基準を追加した。
ベンチマークには120のタスクと1,026のシナリオが含まれており、35人の専門家が本物のショッピングニーズを反映して実施している。
GPT-5は11.22%、Gemini-2.5-Flashは3.92%)。
これらの発見は、LLMが安全でない製品の使用の特定に失敗したり、宣伝上の誤情報を流したりといった重大なエラーを犯し、有害なレコメンデーションにつながる研究ベンチマークと実世界の展開の間にかなりのギャップがあることを浮き彫りにしている。
ShoppingCompはギャップを埋め、Eコマースにおける信頼性と実用的なエージェントを進化させるための新しい標準を確立する。
関連論文リスト
- LLMs as Judges: Toward The Automatic Review of GSN-compliant Assurance Cases [6.29065956656341]
保証ケースは、ミッションクリティカルシステムの特定の非機能要件の正しい実装を検証することができる。
彼らは、人命、環境被害、金融損失を含むあらゆる種類の害のリスクを減らすことを目指している。
保証ケースは、数百ページにわたる広範なドキュメントとして整理され、その作成、レビュー、メンテナンスがエラーを起こし、時間がかかり、面倒であることが多い。
レビュープロセスを自動化するために,textitLLM-as-a-judgeパラダイムを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-04T02:45:50Z) - ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents [21.399546417224755]
既存のeコマースのベンチマークは主に、商品の発見や購入といった基本的なユーザー意図に焦点を当てている。
提案するShoppingBenchは,新たなエンドツーエンドショッピングベンチマークである。
インタラクティブなシミュレート環境として機能し,250万以上の現実世界製品が組み込まれている大規模ショッピングサンドボックスを提供する。
論文 参考訳(メタデータ) (2025-08-06T09:51:30Z) - Standard Benchmarks Fail - Auditing LLM Agents in Finance Must Prioritize Risk [31.43947127076459]
標準ベンチマークでは、大規模言語モデル(LLM)エージェントが金融面でどれだけうまく機能するかを定めているが、デプロイの安全性についてはほとんど語っていない。
我々は、精度の指標とリターンベースのスコアが、幻覚的な事実、古いデータ、敵の迅速な操作などの脆弱性を見渡すことで、信頼性の錯覚をもたらすと論じている。
論文 参考訳(メタデータ) (2025-02-21T12:56:15Z) - LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient [19.673388630963807]
我々は,4次元と10の基準で構成された,自動的かつ偏りのない評価フレームワークを提案する。
本フレームワークでは,大規模言語モデル(LLM)を汎用ベンチマークジェネレータとして直接プロンプトする利点と弱点を解析する。
次に、識別された弱点に対処し、それらをBenchMakerとして統合する一連の方法を紹介します。
実験により、BenchMakerは、すべてのメトリクスにおいて、人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成することが確認された。
論文 参考訳(メタデータ) (2025-02-02T06:36:01Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [71.37481473399559]
本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。
インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。
人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文 参考訳(メタデータ) (2024-06-14T16:51:21Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。