Fugu-MT 論文翻訳(概要): Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce

論文の概要: Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce

arxiv url: http://arxiv.org/abs/2205.10843v1
Date: Sun, 22 May 2022 15:01:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 17:11:37.931075
Title: Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce
Title（参考訳）: eコマースにおけるベンチマークデータセットを用いたコモンセンスナレッジ・サリアンス評価
Authors: Yincen Qu, Ningyu Zhang, Hui Chen, Zelin Dai, Zezhong Xu, Chengming Wang, Xiaoyu Wang, Qiang Chen, Huajun Chen
Abstract要約: 電子商取引においては、コモンセンス・ナレッジ(CSK)のサリエンスは、製品検索やレコメンデーションといった幅広い応用に有用である。しかし、既存のCSKコレクションの多くは、信頼スコアのみによってランク付けされており、人間の視点ではどのコレクションが健全であるかに関する情報はない。本研究では,CSK三重項が与えられた場合,三重項が正当かどうかを学習するためには,教師付きサリエンス評価の課題を定義する。
参考スコア（独自算出の注目度）: 42.726755541409545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In e-commerce, the salience of commonsense knowledge (CSK) is beneficial for widespread applications such as product search and recommendation. For example, when users search for "running" in e-commerce, they would like to find items highly related to running, such as "running shoes" rather than "shoes". However, many existing CSK collections rank statements solely by confidence scores, and there is no information about which ones are salient from a human perspective. In this work, we define the task of supervised salience evaluation, where given a CSK triple, the model is required to learn whether the triple is salient or not. In addition to formulating the new task, we also release a new Benchmark dataset of Salience Evaluation in E-commerce (BSEE) and hope to promote related research on commonsense knowledge salience evaluation. We conduct experiments in the dataset with several representative baseline models. The experimental results show that salience evaluation is a hard task where models perform poorly on our evaluation set. We further propose a simple but effective approach, PMI-tuning, which shows promise for solving this novel problem.
Abstract（参考訳）: eコマースでは、コモンセンス・ナレッジ(csk)は製品検索やレコメンデーションといった幅広い応用に有用である。例えば、ユーザがeコマースで"runing"を検索すると、"shoes"ではなく"runing shoes"のようなランニングに関連するアイテムが見つかる。しかし、既存のCSKコレクションの多くは、信頼スコアのみによってランク付けされており、人間の視点ではどのコレクションが健全であるかに関する情報はない。本研究では,CSK三重項が与えられた場合,三重項が正当かどうかを学習するためには,教師付きサリエンス評価の課題を定義する。また,新たな課題の定式化に加えて,BSEE(Salience Evaluation in E-Commerce)のベンチマークデータセットも公開し,コモンセンス・ナレッジ・サリエンス評価に関する関連研究の促進を期待する。いくつかの代表的なベースラインモデルを用いてデータセットで実験を行う。実験結果から,サリエンス評価はモデルが評価セットに不適合な作業であることがわかった。さらに,PMIチューニングというシンプルな手法を提案し,この問題の解決を約束する。

関連論文リスト

Taxonomy-based Negative Sampling In Personalized Semantic Search for E-commerce [46.251483528080236]
本稿では,クエリや商品を共有ベクトル空間に埋め込んだeコマース検索のセマンティック検索モデルを提案する。顧客の過去の購買履歴と行動をモデル化し,ユーザレベルのパーソナライゼーションを取り入れた。
論文参考訳（メタデータ） (2025-11-01T20:25:00Z)
SessionIntentBench: A Multi-task Inter-session Intention-shift Modeling Benchmark for E-commerce Customer Behavior Understanding [64.45047674586671]
本稿では,意図木の概念を導入し,データセットキュレーションパイプラインを提案する。我々は,L(V)LMsのセッション間意図シフト理解能力を評価するマルチモーダルベンチマークSessionIntentBenchを構築した。 1,952,177の意図的エントリ,1,132,145のセッション意図軌跡,および10,905のセッションを使用してマイニングされた13,003,664のタスクにより,既存のセッションデータを活用可能なスケーラブルな方法を提供する。
論文参考訳（メタデータ） (2025-07-27T09:04:17Z)
ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph [31.21413440242778]
大規模言語モデル(LLM)は、様々なNLPタスクでその能力を実証している。プラットフォーム検索、パーソナライズされたレコメンデーション、カスタマーサービスといった実践的な実装によって証明されている。 LLMの事実性を評価するためのいくつかの手法が提案されているが、信頼性の欠如、高消費、ドメインの専門知識の欠如などの問題は、電子商取引における効果的な評価のギャップを残している。電子商取引におけるLLMの能力を評価するためのデータセットであるECKGBenchを提案する。
論文参考訳（メタデータ） (2025-03-20T09:49:15Z)
Identifying High Consideration E-Commerce Search Queries [27.209699168631445]
本稿では,Eコマースサイトにおけるハイリフレクション(HC)クエリを識別するために,EQR(Engagement-based Query Ranking)アプローチを提案する。 EQRは、人気信号よりも、顧客の行動、財務、カタログ情報に関連するクエリレベルの特徴を優先する。モデルは商業的にデプロイされ、ダウンストリームの顧客への影響の観点から、人間の選択したクエリよりも優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-17T18:22:42Z)
Image Score: Learning and Evaluating Human Preferences for Mercari Search [2.1555050262085027]
大規模言語モデル(LLM)は、データラベリングタスクに積極的に研究され、使用されている。本稿では,電子商取引環境における画像品質の評価と予測のためのコスト効率の高いLCM駆動手法を提案する。 LLMが生成したラベルはMercuri上でのユーザ行動と相関していることを示す。
論文参考訳（メタデータ） (2024-08-21T05:30:06Z)
IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [71.37481473399559]
本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文参考訳（メタデータ） (2024-06-14T16:51:21Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Going beyond research datasets: Novel intent discovery in the industry setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。ドメイン内データに基づく事前学習型言語モデルの利点を示す。また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文参考訳（メタデータ） (2023-05-09T14:21:29Z)
An End-to-End Solution for Named Entity Recognition in eCommerce Search [7.240345005177374]
名前付きエンティティ認識(NER)は、現代の検索クエリ理解における重要なステップである。近年の研究では、深層学習手法を用いた共有ベンチマークNERタスクの有望な結果が示されている。本稿では,これらの課題を解決するためのエンドツーエンドソリューションを示す。
論文参考訳（メタデータ） (2020-12-11T04:58:13Z)
RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文参考訳（メタデータ） (2020-11-13T11:07:08Z)
E-commerce Query-based Generation based on User Review [1.484852576248587]
本稿では,従来のユーザによるレビューに基づいて,ユーザの質問に対する回答を生成するための新しいセク2seqベースのテキスト生成モデルを提案する。ユーザの質問や感情の極性が与えられた場合,関心事の側面を抽出し,過去のユーザレビューを要約した回答を生成する。
論文参考訳（メタデータ） (2020-11-11T04:58:31Z)
Mining Implicit Relevance Feedback from User Behavior for Web Question Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文参考訳（メタデータ） (2020-06-13T07:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。