論文の概要: ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.20196v1
- Date: Thu, 27 Feb 2025 15:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:09.639166
- Title: ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models
- Title(参考訳): ChineseEcomQA: 大規模言語モデルのためのスケーラブルなEコマース概念評価ベンチマーク
- Authors: Haibin Chen, Kangtao Lv, Chengwei Hu, Yanshi Li, Yujin Yuan, Yancheng He, Xingyao Zhang, Langming Liu, Shilei Liu, Wenbo Su, Bo Zheng,
- Abstract要約: 我々は,eコマースの基本的な概念に着目した,スケーラブルな質問応答ベンチマークである textbf ChineseEcomQA を提案する。
基本的な概念は、さまざまなeコマースタスクに適用できるように設計されている。
一般性と特異性を慎重にバランスさせることで、ChinaEcomQAは広範囲にわたるeコマースのコンセプトを効果的に区別する。
- 参考スコア(独自算出の注目度): 15.940958043509463
- License:
- Abstract: With the increasing use of Large Language Models (LLMs) in fields such as e-commerce, domain-specific concept evaluation benchmarks are crucial for assessing their domain capabilities. Existing LLMs may generate factually incorrect information within the complex e-commerce applications. Therefore, it is necessary to build an e-commerce concept benchmark. Existing benchmarks encounter two primary challenges: (1) handle the heterogeneous and diverse nature of tasks, (2) distinguish between generality and specificity within the e-commerce field. To address these problems, we propose \textbf{ChineseEcomQA}, a scalable question-answering benchmark focused on fundamental e-commerce concepts. ChineseEcomQA is built on three core characteristics: \textbf{Focus on Fundamental Concept}, \textbf{E-commerce Generality} and \textbf{E-commerce Expertise}. Fundamental concepts are designed to be applicable across a diverse array of e-commerce tasks, thus addressing the challenge of heterogeneity and diversity. Additionally, by carefully balancing generality and specificity, ChineseEcomQA effectively differentiates between broad e-commerce concepts, allowing for precise validation of domain capabilities. We achieve this through a scalable benchmark construction process that combines LLM validation, Retrieval-Augmented Generation (RAG) validation, and rigorous manual annotation. Based on ChineseEcomQA, we conduct extensive evaluations on mainstream LLMs and provide some valuable insights. We hope that ChineseEcomQA could guide future domain-specific evaluations, and facilitate broader LLM adoption in e-commerce applications.
- Abstract(参考訳): 電子商取引などの分野におけるLarge Language Models(LLM)の利用の増加に伴い、ドメイン固有の概念評価ベンチマークは、そのドメイン能力を評価する上で不可欠である。
既存のLLMは、複雑なeコマースアプリケーション内で事実的に誤った情報を生成する可能性がある。
そのため,eコマースのコンセプトベンチマークを構築する必要がある。
既存のベンチマークは,(1)タスクの不均一性と多様性を扱うこと,(2)eコマース分野における一般性と特異性を区別すること,の2つの主要な課題に直面する。
これらの問題に対処するため,本研究では,eコマースの基本的な概念に焦点をあてたスケーラブルな質問応答ベンチマークである「textbf{ ChineseEcomQA}」を提案する。
ChineseEcomQAは3つの基本的特徴に基づいて構築されている: \textbf{Focus on Fundamental Concept}, \textbf{E-Commerce Generality}, \textbf{E-Commerce Expertise}。
基本的な概念は多様なeコマースタスクに適用できるように設計されており、不均一性と多様性の課題に対処している。
さらに、汎用性と特異性を慎重にバランスさせることで、ChinaEcomQAは広範囲にわたるeコマースのコンセプトを効果的に区別し、ドメイン機能の正確な検証を可能にします。
LLMバリデーション、RAGバリデーション、厳密なマニュアルアノテーションを組み合わせたスケーラブルなベンチマーク構築プロセスによりこれを実現する。
The ChineseEcomQA, we performed extensive evaluation on mainstream LLMs and provide some valuable insights。
ChineseEcomQAが将来のドメイン固有の評価をガイドし、eコマースアプリケーションにおけるLLMの広範な採用を促進することを願っている。
関連論文リスト
- eC-Tab2Text: Aspect-Based Text Generation from e-Commerce Product Tables [6.384763560610077]
我々はeコマースの複雑さを捉えるために設計された新しいデータセットeC-Tab2Textを紹介する。
製品表からテキストを生成することに注力し、LCMが高品質で属性固有の製品レビューを作成できるようにする。
その結果,文脈的に正確なレビューを生成する上で,大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-02-20T18:41:48Z) - EC-Guide: A Comprehensive E-Commerce Guide for Instruction Tuning and Quantization [7.982538359035973]
EC-Guide hrefhttps://github.com/fzp0424/EC-Guide-KDDUP-2024は、LCMのチューニングと量子化のための総合的な電子商取引ガイドである。
私たちのソリューションはモデルに依存しないため、大規模なシステムにまたがる効果的なスケーラビリティを実現しています。
論文 参考訳(メタデータ) (2024-08-06T05:50:41Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [71.37481473399559]
本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。
インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。
人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文 参考訳(メタデータ) (2024-06-14T16:51:21Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task
Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。
EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文 参考訳(メタデータ) (2023-08-14T06:49:53Z) - LLaMA-E: Empowering E-commerce Authoring with Object-Interleaved Instruction Following [16.800545001782037]
本稿では、顧客、販売者、プラットフォームの文脈的嗜好に対処する統合eコマースオーサリングモデルであるLLaMA-Eを提案する。
広告生成,クエリ強化製品タイトル書き換え,製品分類,購入意図の推測,一般的なeコマースQ&Aといったタスクから導かれる命令セットを設計する。
提案したLLaMA-Eモデルは、最先端評価性能を達成し、ゼロショット実用的な応用において優位性を示す。
論文 参考訳(メタデータ) (2023-08-09T12:26:37Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。