論文の概要: ECom-Bench: Can LLM Agent Resolve Real-World E-commerce Customer Support Issues?
- arxiv url: http://arxiv.org/abs/2507.05639v1
- Date: Tue, 08 Jul 2025 03:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.550445
- Title: ECom-Bench: Can LLM Agent Resolve Real-World E-commerce Customer Support Issues?
- Title(参考訳): ECom-Bench: LLMエージェントは現実世界のEコマース顧客サポート問題を解決できるのか?
- Authors: Haoxin Wang, Xianhan Peng, Xucheng Huang, Yizhe Huang, Ming Gong, Chenghan Yang, Yang Liu, Ling Jiang,
- Abstract要約: ECom-Benchは、eコマース顧客サポートドメインにおいて、マルチモーダル機能を備えたLLMエージェントを評価するための最初のベンチマークフレームワークである。
ECom-Benchは、実際のeコマース顧客インタラクションから収集されたペルソナ情報と、真正なeコマース対話から派生した現実的なタスクデータセットに基づく動的ユーザシミュレーションを特徴とする。
- 参考スコア(独自算出の注目度): 20.83383124467603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce ECom-Bench, the first benchmark framework for evaluating LLM agent with multimodal capabilities in the e-commerce customer support domain. ECom-Bench features dynamic user simulation based on persona information collected from real e-commerce customer interactions and a realistic task dataset derived from authentic e-commerce dialogues. These tasks, covering a wide range of business scenarios, are designed to reflect real-world complexities, making ECom-Bench highly challenging. For instance, even advanced models like GPT-4o achieve only a 10-20% pass^3 metric in our benchmark, highlighting the substantial difficulties posed by complex e-commerce scenarios. Upon publication, the code and data will be open-sourced to facilitate further research and development in this domain.
- Abstract(参考訳): 本稿では,eコマース顧客サポートドメインにおけるマルチモーダル機能を備えたLLMエージェント評価のためのベンチマークフレームワークであるECom-Benchを紹介する。
ECom-Benchは、実際のeコマース顧客インタラクションから収集されたペルソナ情報と、真正なeコマース対話から派生した現実的なタスクデータセットに基づく動的ユーザシミュレーションを特徴とする。
幅広いビジネスシナリオをカバーするこれらのタスクは、現実世界の複雑さを反映するように設計されており、ECom-Benchは非常に難しい。
例えば、GPT-4oのような先進的なモデルでさえ、ベンチマークで10-20%のパス^3しか達成していません。
コードが公開されると、この領域におけるさらなる研究と開発を促進するために、コードとデータがオープンソース化される。
関連論文リスト
- EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association [83.4879773429742]
本稿では,E-Commerce Script Planning(EcomScript)の課題を3つの逐次サブタスクとして定義する。
本稿では,各ステップに製品を関連付けることで,拡張性のある製品リッチスクリプトの生成を可能にする新しいフレームワークを提案する。
最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
論文 参考訳(メタデータ) (2025-05-21T07:21:38Z) - ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph [31.21413440242778]
大規模言語モデル(LLM)は、様々なNLPタスクでその能力を実証している。
プラットフォーム検索、パーソナライズされたレコメンデーション、カスタマーサービスといった実践的な実装によって証明されている。
LLMの事実性を評価するためのいくつかの手法が提案されているが、信頼性の欠如、高消費、ドメインの専門知識の欠如などの問題は、電子商取引における効果的な評価のギャップを残している。
電子商取引におけるLLMの能力を評価するためのデータセットであるECKGBenchを提案する。
論文 参考訳(メタデータ) (2025-03-20T09:49:15Z) - ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models [15.940958043509463]
我々は,eコマースの基本的な概念に着目した,スケーラブルな質問応答ベンチマークである textbf ChineseEcomQA を提案する。
基本的な概念は、さまざまなeコマースタスクに適用できるように設計されている。
一般性と特異性を慎重にバランスさせることで、ChinaEcomQAは広範囲にわたるeコマースのコンセプトを効果的に区別する。
論文 参考訳(メタデータ) (2025-02-27T15:36:00Z) - A survey on fairness of large language models in e-commerce: progress, application, and challenge [8.746342211863332]
本調査では,eコマースにおける大規模言語モデル(LLM)の公平性について検討する。
進捗、アプリケーション、そして彼らが直面している課題を調べます。
この論文は、eコマースにおける公正性の課題を批判的に扱い、トレーニングデータとアルゴリズムのバイアスが不公平な結果をもたらすことを強調している。
論文 参考訳(メタデータ) (2024-05-15T23:25:19Z) - Conversational Recommender System and Large Language Model Are Made for Each Other in E-commerce Pre-sales Dialogue [80.51690477289418]
会話推薦システム(CRS)は、ユーザ表現を学習し、対話コンテキストに基づいて正確なレコメンデーションを提供するが、外部知識に依存している。
大規模言語モデル(LLM)は、微調整後の事前販売の対話を模倣する応答を生成するが、正確なレコメンデーションのためのドメイン固有の知識は欠如している。
本稿では,eコマース事前販売対話におけるLCMとCRSの組み合わせの有効性について検討する。
論文 参考訳(メタデータ) (2023-10-23T07:00:51Z) - EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task
Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。
EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文 参考訳(メタデータ) (2023-08-14T06:49:53Z) - LLaMA-E: Empowering E-commerce Authoring with Object-Interleaved Instruction Following [16.800545001782037]
本稿では、顧客、販売者、プラットフォームの文脈的嗜好に対処する統合eコマースオーサリングモデルであるLLaMA-Eを提案する。
広告生成,クエリ強化製品タイトル書き換え,製品分類,購入意図の推測,一般的なeコマースQ&Aといったタスクから導かれる命令セットを設計する。
提案したLLaMA-Eモデルは、最先端評価性能を達成し、ゼロショット実用的な応用において優位性を示す。
論文 参考訳(メタデータ) (2023-08-09T12:26:37Z) - Automatic Controllable Product Copywriting for E-Commerce [58.97059802658354]
我々は、JD.comのeコマースレコメンデーションプラットフォームに、Eコマースのプレフィックスベースのコントロール可能なコピーライティング生成をデプロイする。
提案するECCCGの有効性を検証する実験を行った。
本稿では,リアルタイムのJD.com電子商取引レコメンデーションプラットフォームに,ECCCGと連携するデプロイアーキテクチャを導入する。
論文 参考訳(メタデータ) (2022-06-21T04:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。