論文の概要: Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in
E-commerce
- arxiv url: http://arxiv.org/abs/2205.10843v1
- Date: Sun, 22 May 2022 15:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 17:11:37.931075
- Title: Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in
E-commerce
- Title(参考訳): eコマースにおけるベンチマークデータセットを用いたコモンセンスナレッジ・サリアンス評価
- Authors: Yincen Qu, Ningyu Zhang, Hui Chen, Zelin Dai, Zezhong Xu, Chengming
Wang, Xiaoyu Wang, Qiang Chen, Huajun Chen
- Abstract要約: 電子商取引においては、コモンセンス・ナレッジ(CSK)のサリエンスは、製品検索やレコメンデーションといった幅広い応用に有用である。
しかし、既存のCSKコレクションの多くは、信頼スコアのみによってランク付けされており、人間の視点ではどのコレクションが健全であるかに関する情報はない。
本研究では,CSK三重項が与えられた場合,三重項が正当かどうかを学習するためには,教師付きサリエンス評価の課題を定義する。
- 参考スコア(独自算出の注目度): 42.726755541409545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In e-commerce, the salience of commonsense knowledge (CSK) is beneficial for
widespread applications such as product search and recommendation. For example,
when users search for "running" in e-commerce, they would like to find items
highly related to running, such as "running shoes" rather than "shoes".
However, many existing CSK collections rank statements solely by confidence
scores, and there is no information about which ones are salient from a human
perspective. In this work, we define the task of supervised salience
evaluation, where given a CSK triple, the model is required to learn whether
the triple is salient or not. In addition to formulating the new task, we also
release a new Benchmark dataset of Salience Evaluation in E-commerce (BSEE) and
hope to promote related research on commonsense knowledge salience evaluation.
We conduct experiments in the dataset with several representative baseline
models. The experimental results show that salience evaluation is a hard task
where models perform poorly on our evaluation set. We further propose a simple
but effective approach, PMI-tuning, which shows promise for solving this novel
problem.
- Abstract(参考訳): eコマースでは、コモンセンス・ナレッジ(csk)は製品検索やレコメンデーションといった幅広い応用に有用である。
例えば、ユーザがeコマースで"runing"を検索すると、"shoes"ではなく"runing shoes"のようなランニングに関連するアイテムが見つかる。
しかし、既存のCSKコレクションの多くは、信頼スコアのみによってランク付けされており、人間の視点ではどのコレクションが健全であるかに関する情報はない。
本研究では,CSK三重項が与えられた場合,三重項が正当かどうかを学習するためには,教師付きサリエンス評価の課題を定義する。
また,新たな課題の定式化に加えて,BSEE(Salience Evaluation in E-Commerce)のベンチマークデータセットも公開し,コモンセンス・ナレッジ・サリエンス評価に関する関連研究の促進を期待する。
いくつかの代表的なベースラインモデルを用いてデータセットで実験を行う。
実験結果から,サリエンス評価はモデルが評価セットに不適合な作業であることがわかった。
さらに,PMIチューニングというシンプルな手法を提案し,この問題の解決を約束する。
関連論文リスト
- Identifying High Consideration E-Commerce Search Queries [27.209699168631445]
本稿では,Eコマースサイトにおけるハイリフレクション(HC)クエリを識別するために,EQR(Engagement-based Query Ranking)アプローチを提案する。
EQRは、人気信号よりも、顧客の行動、財務、カタログ情報に関連するクエリレベルの特徴を優先する。
モデルは商業的にデプロイされ、ダウンストリームの顧客への影響の観点から、人間の選択したクエリよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-17T18:22:42Z) - Image Score: Learning and Evaluating Human Preferences for Mercari Search [2.1555050262085027]
大規模言語モデル(LLM)は、データラベリングタスクに積極的に研究され、使用されている。
本稿では,電子商取引環境における画像品質の評価と予測のためのコスト効率の高いLCM駆動手法を提案する。
LLMが生成したラベルはMercuri上でのユーザ行動と相関していることを示す。
論文 参考訳(メタデータ) (2024-08-21T05:30:06Z) - IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [71.37481473399559]
本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。
インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。
人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文 参考訳(メタデータ) (2024-06-14T16:51:21Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - An End-to-End Solution for Named Entity Recognition in eCommerce Search [7.240345005177374]
名前付きエンティティ認識(NER)は、現代の検索クエリ理解における重要なステップである。
近年の研究では、深層学習手法を用いた共有ベンチマークNERタスクの有望な結果が示されている。
本稿では,これらの課題を解決するためのエンドツーエンドソリューションを示す。
論文 参考訳(メタデータ) (2020-12-11T04:58:13Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - E-commerce Query-based Generation based on User Review [1.484852576248587]
本稿では,従来のユーザによるレビューに基づいて,ユーザの質問に対する回答を生成するための新しいセク2seqベースのテキスト生成モデルを提案する。
ユーザの質問や感情の極性が与えられた場合,関心事の側面を抽出し,過去のユーザレビューを要約した回答を生成する。
論文 参考訳(メタデータ) (2020-11-11T04:58:31Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。