論文の概要: Multi-word Term Embeddings Improve Lexical Product Retrieval
- arxiv url: http://arxiv.org/abs/2406.01233v1
- Date: Mon, 3 Jun 2024 11:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:18:57.164250
- Title: Multi-word Term Embeddings Improve Lexical Product Retrieval
- Title(参考訳): 語彙的商品検索を改善する多語組込み
- Authors: Viktor Shcherbakov, Fedor Krasnov,
- Abstract要約: 本研究は,eコマースプラットフォームにおける製品記述のオフラインインデックス化を目的としたH1埋め込みモデルについて述べる。
このモデルは、ハイブリッド製品検索システムのフレームワーク内の他の最先端(SoTA)埋め込みモデルと比較される。
検索インデックスのための意味的にリッチな用語語彙を構築するためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product search is uniquely different from search for documents, Internet resources or vacancies, therefore it requires the development of specialized search systems. The present work describes the H1 embdedding model, designed for an offline term indexing of product descriptions at e-commerce platforms. The model is compared to other state-of-the-art (SoTA) embedding models within a framework of hybrid product search system that incorporates the advantages of lexical methods for product retrieval and semantic embedding-based methods. We propose an approach to building semantically rich term vocabularies for search indexes. Compared to other production semantic models, H1 paired with the proposed approach stands out due to its ability to process multi-word product terms as one token. As an example, for search queries "new balance shoes", "gloria jeans kids wear" brand entity will be represented as one token - "new balance", "gloria jeans". This results in an increased precision of the system without affecting the recall. The hybrid search system with proposed model scores mAP@12 = 56.1% and R@1k = 86.6% on the WANDS public dataset, beating other SoTA analogues.
- Abstract(参考訳): 製品検索は、文書、インターネットリソース、または空白の検索とは異なるため、専門的な検索システムを開発する必要がある。
本研究は,eコマースプラットフォームにおける製品記述のオフラインインデックス化を目的としたH1埋め込みモデルについて述べる。
このモデルは、製品検索のための語彙的手法と意味的埋め込みに基づく手法の利点を取り入れたハイブリッド製品検索システムのフレームワーク内の他の最先端(SoTA)埋め込みモデルと比較される。
検索インデックスのための意味的にリッチな用語語彙を構築するためのアプローチを提案する。
他のプロダクションセマンティックモデルと比較すると、H1は複数の単語の製品用語を1つのトークンとして処理できるため、提案手法と組み合わせている。
例えば、検索クエリの"new balance shoes"や"gloria jeans children wear"というブランドエンティティは、"new balance"、"gloria jeans"という1つのトークンとして表現される。
これにより、リコールに影響を与えることなくシステムの精度が向上する。
提案したモデルを用いたハイブリッドサーチシステムは、mAP@12 = 56.1%、R@1k = 86.6%をWADSの公開データセットでスコアし、他のSoTAアナログを上回ります。
関連論文リスト
- Semantic Ads Retrieval at Walmart eCommerce with Language Models Progressively Trained on Multiple Knowledge Domains [6.1008328784394]
Walmart.comの広告検索システムを最適化するために,エンド・ツー・エンドのソリューションを提案する。
当社のアプローチは,製品カテゴリ情報を用いたBERTライクな分類モデルを事前学習することである。
ベースラインDSSMベースのモデルと比較して,検索関連度を最大16%向上させる。
論文 参考訳(メタデータ) (2025-02-13T09:01:34Z) - Hybrid Semantic Search: Unveiling User Intent Beyond Keywords [0.0]
本稿では,ユーザの意図を理解する上で,従来のキーワードベースの検索の限界に対処する。
非意味的な検索エンジン、LLM(Large Language Models)、埋め込みモデルの強みを活用する新しいハイブリッド検索手法を導入する。
論文 参考訳(メタデータ) (2024-08-17T16:04:31Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Searching, fast and slow, through product catalogs [5.077235981745305]
本稿では、リアルタイム提案システムと低レイテンシ検索システムの両方を提供するSKU検索のための統一アーキテクチャを提案する。
我々のシステムは、あらゆる面で、デフォルトの検索エンジンによって提供される結果を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-01T12:30:46Z) - End-to-End Open Vocabulary Keyword Search With Multilingual Neural
Representations [7.780766187171571]
競合性能を実現するニューラルネットワークによるASRフリーキーワード検索モデルを提案する。
本研究は,多言語事前学習と詳細なモデル解析により拡張する。
実験の結果,提案した多言語学習はモデルの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-15T20:33:25Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - End-to-End Open Vocabulary Keyword Search [13.90172596423425]
本稿では,キーワード検索に最適化されたモデルを提案する。
提案モデルでは, 正と負の試行比率が人工的に均衡するタスクにおいて, 同様のエンド・ツー・エンドモデルより優れる。
LVCSRをベースとしたキーワード検索システムでは,出力の再スコア付けに本システムを用いることで,大幅な改善が期待できる。
論文 参考訳(メタデータ) (2021-08-23T18:34:53Z) - ProphetNet-Ads: A Looking Ahead Strategy for Generative Retrieval Models
in Sponsored Search Engine [123.65646903493614]
生成的検索モデルは、ターゲットライブラリプレフィックスツリー(Trie)のパス上でトークンによる出力トークンを生成する
本稿では,これらの問題を解析し,ProphetNet-Adsと呼ばれる生成検索モデルの今後の戦略を提案する。
最近提案されたトリエ型LSTM生成モデルと比較すると,本モデルの結果と統合結果は,ビームサイズ5でそれぞれ15.58%と18.8%改善した。
論文 参考訳(メタデータ) (2020-10-21T07:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。