論文の概要: Doc2Token: Bridging Vocabulary Gap by Predicting Missing Tokens for E-commerce Search
- arxiv url: http://arxiv.org/abs/2406.19647v1
- Date: Fri, 28 Jun 2024 04:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 21:11:27.258531
- Title: Doc2Token: Bridging Vocabulary Gap by Predicting Missing Tokens for E-commerce Search
- Title(参考訳): Doc2Token:eコマース検索で失ったトークンを予測して語彙のギャップを埋める
- Authors: Kaihao Li, Juexin Lin, Tony Lee,
- Abstract要約: 文書から欠落している関連トークンを予測し,検索用文書にこれらのトークンを含むDoc2Tokenを提案する。
Doc2Tokenは、新しいRGE予測スコアにおいてDoc2Queryよりも優れていることが示されている。
当社は、この機能を運用し、オンラインA/Bテストで大きな収益を上げ、Walmart.comのフルトラフィックにこの機能をローンチしました。
- 参考スコア(独自算出の注目度): 3.1255547897598137
- License:
- Abstract: Addressing the "vocabulary mismatch" issue in information retrieval is a central challenge for e-commerce search engines, because product pages often miss important keywords that customers search for. Doc2Query[1] is a popular document-expansion technique that predicts search queries for a document and includes the predicted queries with the document for retrieval. However, this approach can be inefficient for e-commerce search, because the predicted query tokens are often already present in the document. In this paper, we propose Doc2Token, a technique that predicts relevant tokens (instead of queries) that are missing from the document and includes these tokens in the document for retrieval. For the task of predicting missing tokens, we introduce a new metric, "novel ROUGE score". Doc2Token is demonstrated to be superior to Doc2Query in terms of novel ROUGE score and diversity of predictions. Doc2Token also exhibits efficiency gains by reducing both training and inference times. We deployed the feature to production and observed significant revenue gain in an online A/B test, and launched the feature to full traffic on Walmart.com. [1] R. Nogueira, W. Yang, J. Lin, K. Cho, Document expansion by query prediction, arXiv preprint arXiv:1904.08375 (2019)
- Abstract(参考訳): 情報検索における語彙ミスマッチ(vocabulary mismatch)問題に対処することは、Eコマース検索エンジンにとって重要な課題である。
Doc2Query[1]は、ドキュメントの検索クエリを予測し、ドキュメントを検索するための予測クエリを含む人気のあるドキュメント拡張テクニックである。
しかし、この手法は、予測されたクエリトークンが文書にすでに存在しているため、eコマース検索では非効率である可能性がある。
本稿では、文書から欠落している関連トークン(クエリの代わりに)を予測し、検索用文書にこれらのトークンを含むDoc2Tokenを提案する。
欠落したトークンを予測するタスクには,新しいメトリクス "novel ROUGE score" を導入する。
Doc2Tokenは、新しいROUGEスコアと予測の多様性の観点から、Doc2Queryよりも優れていることが示されている。
Doc2Tokenは、トレーニング時間と推論時間の両方を削減することで効率性も向上する。
当社は、この機能を本番環境にデプロイし、オンラインA/Bテストで大きな収益を上げ、Walmart.comのフルトラフィック向けにこの機能をローンチしました。
[1] R. Nogueira, W. Yang, J. Lin, K. Cho, Document expansion by query prediction, arXiv preprint arXiv:1904.08375 (2019)
関連論文リスト
- Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Short Text Pre-training with Extended Token Classification for
E-commerce Query Understanding [41.65431345200079]
拡張トークン分類(ETC)と呼ばれる,短いテキストに特化して設計された新しい事前学習タスクを提案する。
入力テキストをマスキングする代わりに、ジェネレータネットワークを介してトークンを挿入することで入力を拡張し、拡張された入力にどのトークンが挿入されているかを識別する識別器を訓練する。
論文 参考訳(メタデータ) (2022-10-08T04:50:04Z) - One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text [12.98328149016239]
ターゲット文書中のスニペットを見つけるために,単発スニペットタスクとしてMONOMERを提案する。
我々は、MONOMERが1ショットテンプレート-LMからいくつかのベースラインより優れていることを示す実験を行う。
私たちはmonomerをトレーニングします。
視覚的に類似したクエリ検出データを持つ生成データ。
論文 参考訳(メタデータ) (2022-09-12T19:26:32Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Query-Based Keyphrase Extraction from Long Documents [4.823229052465654]
本稿では,長文をチャンクすることでキーフレーズ抽出の問題を克服する。
システムは、事前訓練されたBERTモデルを採用し、それを適応して、与えられたテキストがキーフレーズを形成する確率を推定する。
論文 参考訳(メタデータ) (2022-05-11T10:29:30Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - End-to-End Multihop Retrieval for Compositional Question Answering over
Long Documents [93.55268936974971]
本稿では,長い文書の合成問題に答えるマルチホップ検索手法であるDocHopperを提案する。
各ステップでDocHopperは文書から段落や文を検索し、検索した結果とクエリを混合し、次のステップでクエリを更新する。
文書構造を活用すれば、長い文書の質問応答や検索性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-01T03:13:35Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。