論文の概要: EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association
- arxiv url: http://arxiv.org/abs/2505.15196v1
- Date: Wed, 21 May 2025 07:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.103759
- Title: EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association
- Title(参考訳): EcomScriptBench: ステップワイドインテンション駆動製品アソシエーションによるEコマーススクリプト計画のためのマルチタスクベンチマーク
- Authors: Weiqi Wang, Limeng Cui, Xin Liu, Sreyashi Nag, Wenju Xu, Chen Luo, Sheikh Muhammad Sarwar, Yang Li, Hansu Gu, Hui Liu, Changlong Yu, Jiaxin Bai, Yifan Gao, Haiyang Zhang, Qi He, Shuiwang Ji, Yangqiu Song,
- Abstract要約: 本稿では,E-Commerce Script Planning(EcomScript)の課題を3つの逐次サブタスクとして定義する。
本稿では,各ステップに製品を関連付けることで,拡張性のある製品リッチスクリプトの生成を可能にする新しいフレームワークを提案する。
最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
- 参考スコア(独自算出の注目度): 83.4879773429742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-oriented script planning, or the ability to devise coherent sequences of actions toward specific goals, is commonly employed by humans to plan for typical activities. In e-commerce, customers increasingly seek LLM-based assistants to generate scripts and recommend products at each step, thereby facilitating convenient and efficient shopping experiences. However, this capability remains underexplored due to several challenges, including the inability of LLMs to simultaneously conduct script planning and product retrieval, difficulties in matching products caused by semantic discrepancies between planned actions and search queries, and a lack of methods and benchmark data for evaluation. In this paper, we step forward by formally defining the task of E-commerce Script Planning (EcomScript) as three sequential subtasks. We propose a novel framework that enables the scalable generation of product-enriched scripts by associating products with each step based on the semantic similarity between the actions and their purchase intentions. By applying our framework to real-world e-commerce data, we construct the very first large-scale EcomScript dataset, EcomScriptBench, which includes 605,229 scripts sourced from 2.4 million products. Human annotations are then conducted to provide gold labels for a sampled subset, forming an evaluation benchmark. Extensive experiments reveal that current (L)LMs face significant challenges with EcomScript tasks, even after fine-tuning, while injecting product purchase intentions improves their performance.
- Abstract(参考訳): 目標指向のスクリプト計画(Goal-oriented script planning)または、特定の目標に向けて協調的な行動列を考案する能力は、典型的な活動を計画するために一般的に人間によって使用される。
電子商取引では、顧客はLSMベースのアシスタントを使ってスクリプトを作成し、各ステップで製品を推奨し、便利で効率的なショッピング体験を容易にする。
しかし、LLMがスクリプト計画と製品検索を同時に行うことができないこと、計画されたアクションと検索クエリのセマンティックな相違に起因する製品とのマッチングが困難であること、評価のためのメソッドとベンチマークデータの欠如など、いくつかの課題により、この能力はまだ探索されていない。
本稿では,E-Commerce Script Planning(EcomScript)のタスクを3つの逐次サブタスクとして正式に定義する。
本稿では,アクションと購入意図のセマンティックな類似性に基づいて,製品と各ステップを関連付けることによって,スケーラブルな製品リッチスクリプト生成を可能にする新しいフレームワークを提案する。
現実世界のEコマースデータに私たちのフレームワークを適用することで、240万の製品から提供された605,229のスクリプトを含む、最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
次に、サンプルサブセットのゴールドラベルを提供するために、ヒューマンアノテーションが実行され、評価ベンチマークが作成される。
大規模な実験により、(L)LMは細調整後もEcomScriptタスクにおいて重大な課題に直面し、製品購入意図を注入することでパフォーマンスが向上することが明らかになった。
関連論文リスト
- Automated Query-Product Relevance Labeling using Large Language Models for E-commerce Search [3.392843594990172]
クエリとプロダクトのペアをアノテートするための従来のアプローチは、人間ベースのラベリングサービスに依存している。
本研究では,Large Language Models (LLMs) が,人間ラベル作成者に必要な時間とコストのごく一部で,このタスクにおける人間レベルの精度にアプローチ可能であることを示す。
この拡張性のある人間のアノテーションの代替は、情報検索領域に重大な影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-21T22:59:36Z) - eC-Tab2Text: Aspect-Based Text Generation from e-Commerce Product Tables [6.384763560610077]
我々はeコマースの複雑さを捉えるために設計された新しいデータセットeC-Tab2Textを紹介する。
製品表からテキストを生成することに注力し、LCMが高品質で属性固有の製品レビューを作成できるようにする。
その結果,文脈的に正確なレビューを生成する上で,大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-02-20T18:41:48Z) - DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。
これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。
これは複雑なタスクやデータに問題があります。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [71.37481473399559]
本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。
インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。
人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文 参考訳(メタデータ) (2024-06-14T16:51:21Z) - Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。
実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文 参考訳(メタデータ) (2024-02-01T18:52:26Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。