論文の概要: ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph
- arxiv url: http://arxiv.org/abs/2503.15990v1
- Date: Thu, 20 Mar 2025 09:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:46.033958
- Title: ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph
- Title(参考訳): ECKGBench: 知識グラフを活用したEコマースにおける大規模言語モデルのベンチマーク
- Authors: Langming Liu, Haibin Chen, Yuhao Wang, Yujin Yuan, Shilei Liu, Wenbo Su, Xiangyu Zhao, Bo Zheng,
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクでその能力を実証している。
プラットフォーム検索、パーソナライズされたレコメンデーション、カスタマーサービスといった実践的な実装によって証明されている。
LLMの事実性を評価するためのいくつかの手法が提案されているが、信頼性の欠如、高消費、ドメインの専門知識の欠如などの問題は、電子商取引における効果的な評価のギャップを残している。
電子商取引におけるLLMの能力を評価するためのデータセットであるECKGBenchを提案する。
- 参考スコア(独自算出の注目度): 31.21413440242778
- License:
- Abstract: Large language models (LLMs) have demonstrated their capabilities across various NLP tasks. Their potential in e-commerce is also substantial, evidenced by practical implementations such as platform search, personalized recommendations, and customer service. One primary concern associated with LLMs is their factuality (e.g., hallucination), which is urgent in e-commerce due to its significant impact on user experience and revenue. Despite some methods proposed to evaluate LLMs' factuality, issues such as lack of reliability, high consumption, and lack of domain expertise leave a gap between effective assessment in e-commerce. To bridge the evaluation gap, we propose ECKGBench, a dataset specifically designed to evaluate the capacities of LLMs in e-commerce knowledge. Specifically, we adopt a standardized workflow to automatically generate questions based on a large-scale knowledge graph, guaranteeing sufficient reliability. We employ the simple question-answering paradigm, substantially improving the evaluation efficiency by the least input and output tokens. Furthermore, we inject abundant e-commerce expertise in each evaluation stage, including human annotation, prompt design, negative sampling, and verification. Besides, we explore the LLMs' knowledge boundaries in e-commerce from a novel perspective. Through comprehensive evaluations of several advanced LLMs on ECKGBench, we provide meticulous analysis and insights into leveraging LLMs for e-commerce.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクでその能力を実証している。
プラットフォーム検索、パーソナライズされたレコメンデーション、カスタマーサービスといった実践的な実装によって証明されている。
LLMに関連する主な関心事は、その事実性(例えば幻覚)であり、これは、ユーザエクスペリエンスと収益に大きな影響を与えるため、Eコマースにおいて緊急である。
LLMの事実性を評価するためのいくつかの手法が提案されているが、信頼性の欠如、高消費、ドメインの専門知識の欠如などの問題は、電子商取引における効果的な評価のギャップを残している。
評価ギャップを埋めるため,電子商取引におけるLCMの能力を評価するためのデータセットであるECKGBenchを提案する。
具体的には,大規模な知識グラフに基づいて質問を自動的に生成し,十分な信頼性を保証するための標準化されたワークフローを採用する。
簡単な問合せパラダイムを採用し、最小入力および出力トークンによる評価効率を大幅に改善する。
さらに, 評価段階ごとに, 人間のアノテーション, 迅速な設計, ネガティブサンプリング, 検証など, 豊富な電子商取引の専門知識を注入する。
さらに,電子商取引におけるLLMの知識境界を新たな視点から検討する。
本研究は,ECKGBench上でのLLMの総合評価を通じて,電子商取引におけるLLMの活用に関する詳細な分析と知見を提供する。
関連論文リスト
- Enabling Explainable Recommendation in E-commerce with LLM-powered Product Knowledge Graph [13.808954793523075]
LLMの知識を製品知識グラフ(PKG)に抽出する効率的なアプローチであるLLM-PKGを提案する。
我々は、KGの信頼性と可用性を確保するため、厳密な評価とプルーニング手法を採用している。
電子商取引サイト上で実施したA/Bテストを通じて、ユーザエンゲージメントとトランザクションを著しく促進するLLM-PKGの有効性を実証した。
論文 参考訳(メタデータ) (2024-11-17T10:57:31Z) - EcomEdit: An Automated E-commerce Knowledge Editing Framework for Enhanced Product and Purchase Intention Understanding [42.41707796705922]
知識編集(KE)は、大規模言語モデル(LLM)における事実情報の修正と更新を目標とし、計算コストのかかる微調整なしに精度と関連性を保証する。
ECOMEDITは、Eコマース関連の知識とタスクに適した、Eコマースの知識自動編集フレームワークである。
論文 参考訳(メタデータ) (2024-10-18T08:31:22Z) - Image Score: Learning and Evaluating Human Preferences for Mercari Search [2.1555050262085027]
大規模言語モデル(LLM)は、データラベリングタスクに積極的に研究され、使用されている。
本稿では,電子商取引環境における画像品質の評価と予測のためのコスト効率の高いLCM駆動手法を提案する。
LLMが生成したラベルはMercuri上でのユーザ行動と相関していることを示す。
論文 参考訳(メタデータ) (2024-08-21T05:30:06Z) - IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [71.37481473399559]
本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。
インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。
人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文 参考訳(メタデータ) (2024-06-14T16:51:21Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - A survey on fairness of large language models in e-commerce: progress, application, and challenge [8.746342211863332]
本調査では,eコマースにおける大規模言語モデル(LLM)の公平性について検討する。
進捗、アプリケーション、そして彼らが直面している課題を調べます。
この論文は、eコマースにおける公正性の課題を批判的に扱い、トレーニングデータとアルゴリズムのバイアスが不公平な結果をもたらすことを強調している。
論文 参考訳(メタデータ) (2024-05-15T23:25:19Z) - LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。
オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T04:00:30Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。