論文の概要: Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving
Product Search
- arxiv url: http://arxiv.org/abs/2206.06588v1
- Date: Tue, 14 Jun 2022 04:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 15:36:32.074328
- Title: Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving
Product Search
- Title(参考訳): shopping queryデータセット:製品検索を改善するための大規模esciベンチマーク
- Authors: Chandan K. Reddy, Llu\'is M\`arquez, Fran Valero, Nikhil Rao, Hugo
Zaragoza, Sambaran Bandyopadhyay, Arnab Biswas, Anlu Xing, Karthik Subbian
- Abstract要約: 本稿では,難解なAmazon検索クエリと結果の大規模なデータセットである“ショッピングクエリデータセット”を紹介する。
データセットには、約130万のユニークなクエリと、手作業による(製品)関連判断が260万個含まれている。
データセットはKDDCup'22の課題のひとつで使用されている。
- 参考スコア(独自算出の注目度): 26.772851310517954
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Improving the quality of search results can significantly enhance users
experience and engagement with search engines. In spite of several recent
advancements in the fields of machine learning and data mining, correctly
classifying items for a particular user search query has been a long-standing
challenge, which still has a large room for improvement. This paper introduces
the "Shopping Queries Dataset", a large dataset of difficult Amazon search
queries and results, publicly released with the aim of fostering research in
improving the quality of search results. The dataset contains around 130
thousand unique queries and 2.6 million manually labeled (query,product)
relevance judgements. The dataset is multilingual with queries in English,
Japanese, and Spanish. The Shopping Queries Dataset is being used in one of the
KDDCup'22 challenges. In this paper, we describe the dataset and present three
evaluation tasks along with baseline results: (i) ranking the results list,
(ii) classifying product results into relevance categories, and (iii)
identifying substitute products for a given query. We anticipate that this data
will become the gold standard for future research in the topic of product
search.
- Abstract(参考訳): 検索結果の質の向上は、ユーザー体験と検索エンジンとのエンゲージメントを著しく向上させる。
機械学習とデータマイニングの分野における最近のいくつかの進歩にもかかわらず、特定のユーザー検索クエリの項目を正しく分類することは長年の課題であり、改善の余地は大きい。
本稿では,amazonの検索クエリと検索結果の難解な大規模データセットであるshopping query datasetについて紹介する。
データセットには約130万のユニークなクエリと260万の手作業による関連性判断が含まれている。
データセットは英語、日本語、スペイン語のクエリと多言語である。
Shopping Queries DatasetはKDDCup'22の課題のひとつで使用されている。
本稿では,データセットを記述し,ベースライン結果とともに3つの評価課題を示す。
(i)結果リストのランク付け
(二 製品の結果を関連カテゴリーに分類すること。)
(iii)ある問合せの代用品を特定すること。
我々は、このデータが今後の製品検索分野における研究のゴールドスタンダードになることを期待する。
関連論文リスト
- Generative Retrieval with Preference Optimization for E-commerce Search [16.78829577915103]
我々は、好みを最適化した生成検索という、Eコマース検索のための革新的なフレームワークを開発する。
生の項目のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクを、クエリからマルチスパン識別子を生成するタスクに変換する。
実験の結果,本フレームワークは実世界のデータセット上での競合性能を実現し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示した。
論文 参考訳(メタデータ) (2024-07-29T09:31:19Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Large Language Models for Relevance Judgment in Product Search [48.56992980315751]
検索クエリに対する検索および再ランクされたアイテムの高い関連性は、製品検索の成功の土台である。
本稿では,大規模言語モデル(LLM)を活用して,クエリ・イテムペア(QIP)の関連判断を大規模に自動化する手法について述べる。
本研究は,製品検索における関連判断の自動化の分野への直接的な影響を示唆するものである。
論文 参考訳(メタデータ) (2024-06-01T00:52:41Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Online Learning of Optimally Diverse Rankings [63.62764375279861]
ユーザのフィードバックのみに基づいて最適なリストを効率よく学習するアルゴリズムを提案する。
我々は、$T$クエリの後に、LDRの後悔は$O((N-L)log(T))$としてスケールする。
論文 参考訳(メタデータ) (2021-09-13T12:13:20Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。