Fugu-MT 論文翻訳(概要): IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce

論文の概要: IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce

arxiv url: http://arxiv.org/abs/2406.10173v2
Date: Mon, 30 Sep 2024 03:49:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 13:22:07.073963
Title: IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce
Title（参考訳）: IntentionQA:Eコマースにおける言語モデルの購入意図理解能力の評価ベンチマーク
Authors: Wenxuan Ding, Weiqi Wang, Sze Heng Douglas Kwok, Minghao Liu, Tianqing Fang, Jiaxin Bai, Xin Liu, Changlong Yu, Zheng Li, Chen Luo, Qingyu Yin, Bing Yin, Junxian He, Yangqiu Song,
Abstract要約: 本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
参考スコア（独自算出の注目度）: 71.37481473399559
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Enhancing Language Models' (LMs) ability to understand purchase intentions in E-commerce scenarios is crucial for their effective assistance in various downstream tasks. However, previous approaches that distill intentions from LMs often fail to generate meaningful and human-centric intentions applicable in real-world E-commerce contexts. This raises concerns about the true comprehension and utilization of purchase intentions by LMs. In this paper, we present IntentionQA, a double-task multiple-choice question answering benchmark to evaluate LMs' comprehension of purchase intentions in E-commerce. Specifically, LMs are tasked to infer intentions based on purchased products and utilize them to predict additional purchases. IntentionQA consists of 4,360 carefully curated problems across three difficulty levels, constructed using an automated pipeline to ensure scalability on large E-commerce platforms. Human evaluations demonstrate the high quality and low false-negative rate of our benchmark. Extensive experiments across 19 language models show that they still struggle with certain scenarios, such as understanding products and intentions accurately, jointly reasoning with products and intentions, and more, in which they fall far behind human performances. Our code and data are publicly available at https://github.com/HKUST-KnowComp/IntentionQA.
Abstract（参考訳）: Eコマースシナリオにおける購入意図を理解するための言語モデル(LM)能力の強化は、下流業務における効果的な支援に不可欠である。しかし、LMから意図を抽出する以前のアプローチは、現実のEコマースの文脈に適用できる有意義で人間中心の意図を生成するのに失敗することが多い。これにより、LMによる購入意図の真の理解と利用に関する懸念が高まる。本稿では、電子商取引におけるLMの購入意図の理解を評価するために、ダブルタスクの複数選択質問応答ベンチマークであるIntentionQAを提案する。具体的には、購入した商品に基づいて意図を推測し、追加購入を予測する。 IntentionQAは3つの難易度で慎重に計算された4,360の問題で構成されており、大規模なEコマースプラットフォーム上でのスケーラビリティを確保するために、自動パイプラインを使用して構築されている。人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。 19の言語モデルにわたる大規模な実験は、製品や意図を正確に理解する、製品や意図を共同で推論する、といった特定のシナリオに依然として苦労していることを示している。私たちのコードとデータはhttps://github.com/HKUST-KnowComp/IntentionQA.comで公開されています。

関連論文リスト

Towards Reliable Evaluation of Large Language Models for Multilingual and Multimodal E-Commerce Applications [11.494234164197266]
LLM(Large Language Models)は汎用NLPベンチマークに優れるが、専門分野におけるその能力は未解明のままである。電子商取引におけるLLMを評価するための総合的多言語およびマルチモーダルベンチマークであるEcomEvalを紹介する。
論文参考訳（メタデータ） (2025-10-23T15:04:32Z)
EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association [83.4879773429742]
本稿では,E-Commerce Script Planning(EcomScript)の課題を3つの逐次サブタスクとして定義する。本稿では,各ステップに製品を関連付けることで,拡張性のある製品リッチスクリプトの生成を可能にする新しいフレームワークを提案する。最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
論文参考訳（メタデータ） (2025-05-21T07:21:38Z)
ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph [31.21413440242778]
大規模言語モデル(LLM)は、様々なNLPタスクでその能力を実証している。プラットフォーム検索、パーソナライズされたレコメンデーション、カスタマーサービスといった実践的な実装によって証明されている。 LLMの事実性を評価するためのいくつかの手法が提案されているが、信頼性の欠如、高消費、ドメインの専門知識の欠如などの問題は、電子商取引における効果的な評価のギャップを残している。電子商取引におけるLLMの能力を評価するためのデータセットであるECKGBenchを提案する。
論文参考訳（メタデータ） (2025-03-20T09:49:15Z)
ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models [15.940958043509463]
我々は,eコマースの基本的な概念に着目した,スケーラブルな質問応答ベンチマークである textbf ChineseEcomQA を提案する。基本的な概念は、さまざまなeコマースタスクに適用できるように設計されている。一般性と特異性を慎重にバランスさせることで、ChinaEcomQAは広範囲にわたるeコマースのコンセプトを効果的に区別する。
論文参考訳（メタデータ） (2025-02-27T15:36:00Z)
Image Score: Learning and Evaluating Human Preferences for Mercari Search [2.1555050262085027]
大規模言語モデル(LLM)は、データラベリングタスクに積極的に研究され、使用されている。本稿では,電子商取引環境における画像品質の評価と予測のためのコスト効率の高いLCM駆動手法を提案する。 LLMが生成したラベルはMercuri上でのユーザ行動と相関していることを示す。
論文参考訳（メタデータ） (2024-08-21T05:30:06Z)
MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding [67.26334044239161]
MINDは、マルチモーダル製品メタデータから購入意図を推測し、人間中心のものを優先するフレームワークである。 Amazon Reviewのデータを使用して、1,264,441万の意図を含むマルチモーダルな意図的知識ベースを作成します。得られた意図は2つの意図的理解タスクにおいて大きな言語モデルを大幅に向上させる。
論文参考訳（メタデータ） (2024-06-15T17:56:09Z)
A survey on fairness of large language models in e-commerce: progress, application, and challenge [8.746342211863332]
本調査では,eコマースにおける大規模言語モデル(LLM)の公平性について検討する。進捗、アプリケーション、そして彼らが直面している課題を調べます。この論文は、eコマースにおける公正性の課題を批判的に扱い、トレーニングデータとアルゴリズムのバイアスが不公平な結果をもたらすことを強調している。
論文参考訳（メタデータ） (2024-05-15T23:25:19Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Unlocking the `Why' of Buying: Introducing a New Dataset and Benchmark for Purchase Reason and Post-Purchase Experience [24.949929747493204]
本稿では,現代のAIモデルのための新しいタスクとして,購入理由予測を提案する。まず,ユーザが商品の購入決定を行う理由を実世界から説明するためのデータセットを作成する。当社のアプローチは,ユーザレビューにおいて,製品購入の背景にある理由と購入後の体験を明確に区別するためにLCMを誘導する。
論文参考訳（メタデータ） (2024-02-20T23:04:06Z)
EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。 EmoBenchには、英語と中国語で400の手作りの質問が含まれている。以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文参考訳（メタデータ） (2024-02-19T11:48:09Z)
EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。 EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文参考訳（メタデータ） (2023-08-14T06:49:53Z)
Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce [42.726755541409545]
電子商取引においては、コモンセンス・ナレッジ(CSK)のサリエンスは、製品検索やレコメンデーションといった幅広い応用に有用である。しかし、既存のCSKコレクションの多くは、信頼スコアのみによってランク付けされており、人間の視点ではどのコレクションが健全であるかに関する情報はない。本研究では,CSK三重項が与えられた場合,三重項が正当かどうかを学習するためには,教師付きサリエンス評価の課題を定義する。
論文参考訳（メタデータ） (2022-05-22T15:01:23Z)
E-BERT: A Phrase and Product Knowledge Enhanced Language Model for E-commerce [63.333860695727424]
電子商取引タスクは、ドメインフレーズの正確な理解を必要とするが、そのようなきめ細かいフレーズレベルの知識は、BERTの訓練目的によって明示的にモデル化されていない。この問題に対処するため、我々はE-BERTという統合事前学習フレームワークを提案する。具体的には、フレーズレベルの知識を保存するために、適応的ハイブリッドマスキングを導入し、モデルが予備単語の知識から複雑なフレーズの学習に適応的に切り替えることを可能にする。製品レベルの知識を活用するために,E-BERT を訓練し,製品に付随する隣人を認知的なクロスアテンション層で予測するNighbor Product Restruction を導入する。
論文参考訳（メタデータ） (2020-09-07T00:15:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。