論文の概要: EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce
- arxiv url: http://arxiv.org/abs/2512.08868v2
- Date: Thu, 11 Dec 2025 16:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.212747
- Title: EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce
- Title(参考訳): EcomBench:Eコマースにおける基礎エージェントの全体的評価に向けて
- Authors: Rui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Bo Zhang, Xuan Zhou, Ming Yan, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R. Fung, Yalong Li, Pengjun Xie,
- Abstract要約: ファウンデーションエージェントは、現実の環境を推論し、相互作用する能力において急速に進歩してきた。
EcomBenchは、現実的なEコマース環境でエージェントのパフォーマンスを評価するために設計された総合的なEコマースベンチマークである。
- 参考スコア(独自算出の注目度): 42.12635793533776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation agents have rapidly advanced in their ability to reason and interact with real environments, making the evaluation of their core capabilities increasingly important. While many benchmarks have been developed to assess agent performance, most concentrate on academic settings or artificially designed scenarios while overlooking the challenges that arise in real applications. To address this issue, we focus on a highly practical real-world setting, the e-commerce domain, which involves a large volume of diverse user interactions, dynamic market conditions, and tasks directly tied to real decision-making processes. To this end, we introduce EcomBench, a holistic E-commerce Benchmark designed to evaluate agent performance in realistic e-commerce environments. EcomBench is built from genuine user demands embedded in leading global e-commerce ecosystems and is carefully curated and annotated through human experts to ensure clarity, accuracy, and domain relevance. It covers multiple task categories within e-commerce scenarios and defines three difficulty levels that evaluate agents on key capabilities such as deep information retrieval, multi-step reasoning, and cross-source knowledge integration. By grounding evaluation in real e-commerce contexts, EcomBench provides a rigorous and dynamic testbed for measuring the practical capabilities of agents in modern e-commerce.
- Abstract(参考訳): ファウンデーションエージェントは、実際の環境を推論し、相互作用する能力が急速に進歩し、コア機能の評価がますます重要になっている。
エージェントのパフォーマンスを評価するために多くのベンチマークが開発されているが、ほとんどの場合、実際のアプリケーションで発生する課題を克服しながら、学術的な設定や人工的に設計されたシナリオに集中している。
この問題に対処するため、我々は、多種多様なユーザインタラクション、動的な市場条件、実際の意思決定プロセスに直接結びついたタスクを含む、非常に実用的な実世界の設定であるeコマースドメインに焦点を当てる。
そこで本研究では,現実的なeコマース環境におけるエージェントのパフォーマンスを評価するための総合的なEコマースベンチマークであるEcomBenchを紹介する。
EcomBenchは、世界の主要なEコマースエコシステムに埋め込まれた真のユーザ要求に基づいて構築されており、明確さ、正確性、ドメイン関連性を保証するために、人間の専門家によって慎重にキュレーションされ、注釈付けされている。
電子商取引シナリオ内の複数のタスクカテゴリをカバーし、ディープ情報検索、マルチステップ推論、クロスソース知識統合といった重要な機能においてエージェントを評価する3つの困難レベルを定義している。
EcomBenchは、実際のeコマースの文脈での評価を基礎として、現代のeコマースにおけるエージェントの実用能力を測定するための厳格で動的なテストベッドを提供する。
関連論文リスト
- UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI [2.0619484032730813]
UpBenchは、グローバルなUpworkの労働市場から引き出された実際の仕事に関するベンチマークだ。
各タスクは検証されたクライアントトランザクションに対応し、実際の作業活動と財務成果の評価をアンロックする。
UpBenchはルーリックベースの評価フレームワークを採用しており、専門家フリーランサーは各ジョブを詳細かつ検証可能な受け入れ基準に分解し、基準ごとのフィードバックでAI申請を評価する。
論文 参考訳(メタデータ) (2025-11-15T17:39:37Z) - WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality [62.43165871914528]
我々は、Web開発におけるLCM-as-a-judgeのパフォーマンスを評価するための体系的なベンチマークであるWebDevJudgeを紹介する。
WebDevJudgeは、構造化およびクエリグラウンドのルーリックで注釈付けされた、ペア化されたWeb実装よりも人間の好みラベルで構成されている。
詳細な分析によると、このギャップは、機能的同値性認識の失敗、タスク実現可能性の検証、バイアス軽減など、基本的なモデル上の制限に由来する。
論文 参考訳(メタデータ) (2025-10-21T12:16:04Z) - Towards General Agentic Intelligence via Environment Scaling [78.66355092082253]
高度なエージェントインテリジェンスは、現実世界のアプリケーションに大規模言語モデルをデプロイするための前提条件である。
完全にシミュレートされた異種環境を自動的に構築するスケーラブルなフレームワークを設計する。
エージェントベンチマーク, tau-bench, tau2-Bench, ACEBenchの実験により, トレーニングモデルである AgentScaler が, モデルの関数呼び出し能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-16T17:57:20Z) - ECom-Bench: Can LLM Agent Resolve Real-World E-commerce Customer Support Issues? [13.814769031037526]
ECom-Benchは、eコマース顧客サポートドメインにおいて、マルチモーダル機能を持つLLMエージェントを評価するための最初のベンチマークフレームワークである。
ECom-Benchは、実際のeコマース顧客インタラクションから収集されたペルソナ情報と、真正なeコマース対話から派生した現実的なタスクデータセットに基づく動的ユーザシミュレーションを特徴とする。
GPT-4oのような先進的なモデルでさえ、ベンチマークで10-20%のパス3メトリックしか達成していません。
論文 参考訳(メタデータ) (2025-07-08T03:35:48Z) - AI-Driven Sentiment Analytics: Unlocking Business Value in the E-Commerce Landscape [0.0]
本稿では,eコマースアプリケーションに特化して設計されたAIによる感情分析システムを提案する。
私たちのアプローチは、従来の機械学習技術と現代的なディープラーニングモデルを統合することで、顧客の感情をより微妙な理解を可能にします。
実験結果から,本システムは,多種多様な大規模データセットにおいて89.7%の精度で,標準的な感情分析手法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-20T18:56:22Z) - ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models [15.940958043509463]
我々は,eコマースの基本的な概念に着目した,スケーラブルな質問応答ベンチマークである textbf ChineseEcomQA を提案する。
基本的な概念は、さまざまなeコマースタスクに適用できるように設計されている。
一般性と特異性を慎重にバランスさせることで、ChinaEcomQAは広範囲にわたるeコマースのコンセプトを効果的に区別する。
論文 参考訳(メタデータ) (2025-02-27T15:36:00Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。