論文の概要: IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce
- arxiv url: http://arxiv.org/abs/2406.10173v2
- Date: Mon, 30 Sep 2024 03:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:21.818548
- Title: IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce
- Title(参考訳): IntentionQA:Eコマースにおける言語モデルの購入意図理解能力の評価ベンチマーク
- Authors: Wenxuan Ding, Weiqi Wang, Sze Heng Douglas Kwok, Minghao Liu, Tianqing Fang, Jiaxin Bai, Xin Liu, Changlong Yu, Zheng Li, Chen Luo, Qingyu Yin, Bing Yin, Junxian He, Yangqiu Song,
- Abstract要約: 本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。
インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。
人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
- 参考スコア(独自算出の注目度): 71.37481473399559
- License:
- Abstract: Enhancing Language Models' (LMs) ability to understand purchase intentions in E-commerce scenarios is crucial for their effective assistance in various downstream tasks. However, previous approaches that distill intentions from LMs often fail to generate meaningful and human-centric intentions applicable in real-world E-commerce contexts. This raises concerns about the true comprehension and utilization of purchase intentions by LMs. In this paper, we present IntentionQA, a double-task multiple-choice question answering benchmark to evaluate LMs' comprehension of purchase intentions in E-commerce. Specifically, LMs are tasked to infer intentions based on purchased products and utilize them to predict additional purchases. IntentionQA consists of 4,360 carefully curated problems across three difficulty levels, constructed using an automated pipeline to ensure scalability on large E-commerce platforms. Human evaluations demonstrate the high quality and low false-negative rate of our benchmark. Extensive experiments across 19 language models show that they still struggle with certain scenarios, such as understanding products and intentions accurately, jointly reasoning with products and intentions, and more, in which they fall far behind human performances. Our code and data are publicly available at https://github.com/HKUST-KnowComp/IntentionQA.
- Abstract(参考訳): Eコマースシナリオにおける購入意図を理解するための言語モデル(LM)能力の強化は、下流業務における効果的な支援に不可欠である。
しかし、LMから意図を抽出する以前のアプローチは、現実のEコマースの文脈に適用できる有意義で人間中心の意図を生成するのに失敗することが多い。
これにより、LMによる購入意図の真の理解と利用に関する懸念が高まる。
本稿では、電子商取引におけるLMの購入意図の理解を評価するために、ダブルタスクの複数選択質問応答ベンチマークであるIntentionQAを提案する。
具体的には、購入した商品に基づいて意図を推測し、追加購入を予測する。
IntentionQAは3つの難易度で慎重に計算された4,360の問題で構成されており、大規模なEコマースプラットフォーム上でのスケーラビリティを確保するために、自動パイプラインを使用して構築されている。
人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
19の言語モデルにわたる大規模な実験は、製品や意図を正確に理解する、製品や意図を共同で推論する、といった特定のシナリオに依然として苦労していることを示している。
私たちのコードとデータはhttps://github.com/HKUST-KnowComp/IntentionQA.comで公開されています。
関連論文リスト
- Image Score: Learning and Evaluating Human Preferences for Mercari Search [2.1555050262085027]
大規模言語モデル(LLM)は、データラベリングタスクに積極的に研究され、使用されている。
本稿では,電子商取引環境における画像品質の評価と予測のためのコスト効率の高いLCM駆動手法を提案する。
LLMが生成したラベルはMercuri上でのユーザ行動と相関していることを示す。
論文 参考訳(メタデータ) (2024-08-21T05:30:06Z) - MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding [67.26334044239161]
MINDは、マルチモーダル製品メタデータから購入意図を推測し、人間中心のものを優先するフレームワークである。
Amazon Reviewのデータを使用して、1,264,441万の意図を含むマルチモーダルな意図的知識ベースを作成します。
得られた意図は2つの意図的理解タスクにおいて大きな言語モデルを大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-15T17:56:09Z) - A survey on fairness of large language models in e-commerce: progress, application, and challenge [8.746342211863332]
本調査では,eコマースにおける大規模言語モデル(LLM)の公平性について検討する。
進捗、アプリケーション、そして彼らが直面している課題を調べます。
この論文は、eコマースにおける公正性の課題を批判的に扱い、トレーニングデータとアルゴリズムのバイアスが不公平な結果をもたらすことを強調している。
論文 参考訳(メタデータ) (2024-05-15T23:25:19Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - A Usage-centric Take on Intent Understanding in E-Commerce [20.648271216249977]
私たちは、“顧客が製品を使う方法”として、述語的ユーザ意図に注目します。
FolkScopeの2つの弱点、SOTA E-Commerce Intent Graphを特定します。
ユーザ意図を最も望ましい特性を持つ製品と強く結びつける能力を制限する。
論文 参考訳(メタデータ) (2024-02-22T18:09:33Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z) - EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task
Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。
EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文 参考訳(メタデータ) (2023-08-14T06:49:53Z) - Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in
E-commerce [42.726755541409545]
電子商取引においては、コモンセンス・ナレッジ(CSK)のサリエンスは、製品検索やレコメンデーションといった幅広い応用に有用である。
しかし、既存のCSKコレクションの多くは、信頼スコアのみによってランク付けされており、人間の視点ではどのコレクションが健全であるかに関する情報はない。
本研究では,CSK三重項が与えられた場合,三重項が正当かどうかを学習するためには,教師付きサリエンス評価の課題を定義する。
論文 参考訳(メタデータ) (2022-05-22T15:01:23Z) - E-BERT: A Phrase and Product Knowledge Enhanced Language Model for
E-commerce [63.333860695727424]
電子商取引タスクは、ドメインフレーズの正確な理解を必要とするが、そのようなきめ細かいフレーズレベルの知識は、BERTの訓練目的によって明示的にモデル化されていない。
この問題に対処するため、我々はE-BERTという統合事前学習フレームワークを提案する。
具体的には、フレーズレベルの知識を保存するために、適応的ハイブリッドマスキングを導入し、モデルが予備単語の知識から複雑なフレーズの学習に適応的に切り替えることを可能にする。
製品レベルの知識を活用するために,E-BERT を訓練し,製品に付随する隣人を認知的なクロスアテンション層で予測するNighbor Product Restruction を導入する。
論文 参考訳(メタデータ) (2020-09-07T00:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。