論文の概要: EComStage: Stage-wise and Orientation-specific Benchmarking for Large Language Models in E-commerce
- arxiv url: http://arxiv.org/abs/2601.02752v1
- Date: Tue, 06 Jan 2026 06:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.832075
- Title: EComStage: Stage-wise and Orientation-specific Benchmarking for Large Language Models in E-commerce
- Title(参考訳): EComStage:Eコマースにおける大規模言語モデルのための段階的および指向性固有のベンチマーク
- Authors: Kaiyan Zhao, Zijie Meng, Zheyong Xie, Jin Duan, Yao Hu, Zuozhu Liu, Shaosheng Cao,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、ますますeコマースアプリケーションにデプロイされている。
EComStageは、総合的な段階的推論プロセスにおけるエージェント対応LCMを評価するための統一ベンチマークである。
私たちは、オープンソースモデルやクローズドソースAPIを含む、1Bから200Bのパラメータにまたがる30以上のLLMを評価しました。
- 参考スコア(独自算出の注目度): 26.028479108472265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based agents are increasingly deployed in e-commerce applications to assist customer services in tasks such as product inquiries, recommendations, and order management. Existing benchmarks primarily evaluate whether these agents successfully complete the final task, overlooking the intermediate reasoning stages that are crucial for effective decision-making. To address this gap, we propose EComStage, a unified benchmark for evaluating agent-capable LLMs across the comprehensive stage-wise reasoning process: Perception (understanding user intent), Planning (formulating an action plan), and Action (executing the decision). EComStage evaluates LLMs through seven separate representative tasks spanning diverse e-commerce scenarios, with all samples human-annotated and quality-checked. Unlike prior benchmarks that focus only on customer-oriented interactions, EComStage also evaluates merchant-oriented scenarios, including promotion management, content review, and operational support relevant to real-world applications. We evaluate a wide range of over 30 LLMs, spanning from 1B to over 200B parameters, including open-source models and closed-source APIs, revealing stage/orientation- specific strengths and weaknesses. Our results provide fine-grained, actionable insights for designing and optimizing LLM-based agents in real-world e-commerce settings.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、製品問い合わせ、レコメンデーション、注文管理といったタスクにおけるカスタマーサービスを支援するために、電子商取引アプリケーションにますます多くデプロイされている。
既存のベンチマークは、これらのエージェントが最終的なタスクを完了したかどうかを主に評価し、効果的な意思決定に不可欠な中間的推論段階を見越す。
このギャップに対処するため、我々は、総合的な段階的推論プロセスである知覚(ユーザ意図の理解)、計画(行動計画の策定)、行動(意思決定)におけるエージェント能力 LLM の評価のための統一的なベンチマークである EComStage を提案する。
EComStageは、さまざまなEコマースシナリオにまたがる7つの異なる代表タスクを通じてLLMを評価する。
顧客指向インタラクションのみに焦点を当てた以前のベンチマークとは異なり、EComStageは、プロモーション管理、コンテンツレビュー、実世界のアプリケーションに関連する運用サポートを含む、商業指向のシナリオも評価している。
オープンソースモデルやクローズドソースAPIなど,1Bから200B以上のパラメータにまたがる30以上のLSMを評価し,ステージ/オブジェクト指向固有の長所と短所を明らかにした。
実世界のeコマース環境において, LLMをベースとしたエージェントを設計, 最適化するための, きめ細かな, 実用的な洞察を提供する。
関連論文リスト
- Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation [4.08768677009363]
本稿では,タスク領域に依存しないエージェントタスク完了を評価するための,汎用的でモジュール化されたフレームワークを提案する。
GAIAとBigCodeBenchの2つのベンチマークでMagentic-One Actor Agentを評価することで、我々のフレームワークを検証する。
我々の審査員は、人間の評価と密接に一致したタスクの成功を予測し、それぞれ4.76%と10.52%のアライメント精度を達成した。
論文 参考訳(メタデータ) (2025-08-07T15:39:48Z) - EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association [83.4879773429742]
本稿では,E-Commerce Script Planning(EcomScript)の課題を3つの逐次サブタスクとして定義する。
本稿では,各ステップに製品を関連付けることで,拡張性のある製品リッチスクリプトの生成を可能にする新しいフレームワークを提案する。
最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
論文 参考訳(メタデータ) (2025-05-21T07:21:38Z) - ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph [31.21413440242778]
大規模言語モデル(LLM)は、様々なNLPタスクでその能力を実証している。
プラットフォーム検索、パーソナライズされたレコメンデーション、カスタマーサービスといった実践的な実装によって証明されている。
LLMの事実性を評価するためのいくつかの手法が提案されているが、信頼性の欠如、高消費、ドメインの専門知識の欠如などの問題は、電子商取引における効果的な評価のギャップを残している。
電子商取引におけるLLMの能力を評価するためのデータセットであるECKGBenchを提案する。
論文 参考訳(メタデータ) (2025-03-20T09:49:15Z) - LREF: A Novel LLM-based Relevance Framework for E-commerce [14.217396055372053]
本稿では,eコマース検索の妥当性を高めることを目的とした,LREF(LLM-based Relevance Framework)と呼ばれる新しいフレームワークを提案する。
大規模な実世界のデータセットのオフライン実験やオンラインA/Bテストを通じて,フレームワークの性能を評価する。
このモデルは有名なeコマースアプリケーションにデプロイされ、かなりの商業的利益をもたらした。
論文 参考訳(メタデータ) (2025-03-12T10:10:30Z) - ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models [15.940958043509463]
我々は,eコマースの基本的な概念に着目した,スケーラブルな質問応答ベンチマークである textbf ChineseEcomQA を提案する。
基本的な概念は、さまざまなeコマースタスクに適用できるように設計されている。
一般性と特異性を慎重にバランスさせることで、ChinaEcomQAは広範囲にわたるeコマースのコンセプトを効果的に区別する。
論文 参考訳(メタデータ) (2025-02-27T15:36:00Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。