論文の概要: Generative Retrieval and Alignment Model: A New Paradigm for E-commerce Retrieval
- arxiv url: http://arxiv.org/abs/2504.01403v1
- Date: Wed, 02 Apr 2025 06:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:30.712112
- Title: Generative Retrieval and Alignment Model: A New Paradigm for E-commerce Retrieval
- Title(参考訳): ジェネレーティブ検索とアライメントモデル:Eコマース検索の新しいパラダイム
- Authors: Ming Pang, Chunyuan Yuan, Xiaoyu He, Zheng Fang, Donghao Xie, Fanyi Qu, Xue Jiang, Changping Peng, Zhangang Lin, Zheng Luo, Jingping Shao,
- Abstract要約: 本稿では,GRAM(Generative Retrieval and Alignment Model)という新しいeコマース検索パラダイムを紹介する。
GRAMは、クエリと製品の両方からのテキスト情報を共同でトレーニングして、共有テキストコードを生成する。
GRAMは従来のモデルと最新の生成的検索モデルを大きく上回っている。
- 参考スコア(独自算出の注目度): 12.705202836685189
- License:
- Abstract: Traditional sparse and dense retrieval methods struggle to leverage general world knowledge and often fail to capture the nuanced features of queries and products. With the advent of large language models (LLMs), industrial search systems have started to employ LLMs to generate identifiers for product retrieval. Commonly used identifiers include (1) static/semantic IDs and (2) product term sets. The first approach requires creating a product ID system from scratch, missing out on the world knowledge embedded within LLMs. While the second approach leverages this general knowledge, the significant difference in word distribution between queries and products means that product-based identifiers often do not align well with user search queries, leading to missed product recalls. Furthermore, when queries contain numerous attributes, these algorithms generate a large number of identifiers, making it difficult to assess their quality, which results in low overall recall efficiency. To address these challenges, this paper introduces a novel e-commerce retrieval paradigm: the Generative Retrieval and Alignment Model (GRAM). GRAM employs joint training on text information from both queries and products to generate shared text identifier codes, effectively bridging the gap between queries and products. This approach not only enhances the connection between queries and products but also improves inference efficiency. The model uses a co-alignment strategy to generate codes optimized for maximizing retrieval efficiency. Additionally, it introduces a query-product scoring mechanism to compare product values across different codes, further boosting retrieval efficiency. Extensive offline and online A/B testing demonstrates that GRAM significantly outperforms traditional models and the latest generative retrieval models, confirming its effectiveness and practicality.
- Abstract(参考訳): 従来の疎密で密集した検索手法は、一般的な世界の知識を活用するのに苦労し、クエリや製品の特徴を捉えるのに失敗することが多い。
大規模言語モデル (LLM) の出現に伴い, 産業用検索システムは LLM を用いて製品検索の識別子を生成するようになった。
一般的に使われる識別子には、(1)静的/セマンティックIDと(2)製品用語セットがある。
最初のアプローチでは、LLMに埋め込まれた世界の知識を欠いた、ゼロから製品IDシステムを作成する必要がある。
第2のアプローチでは、この一般的な知識を活用するが、クエリと製品間の単語の分散の顕著な違いは、製品ベースの識別子がユーザ検索クエリとうまく一致しないことが多いことを示し、製品リコールの失敗につながっている。
さらに、クエリに多数の属性が含まれている場合、これらのアルゴリズムは多数の識別子を生成し、その品質を評価することが難しくなり、結果として全体のリコール効率が低下する。
これらの課題に対処するため,本稿では,GRAM(Generative Retrieval and Alignment Model)という新しいeコマース検索パラダイムを提案する。
GRAMは、クエリと製品の両方からのテキスト情報を共同でトレーニングして、共有テキスト識別子コードを生成する。
このアプローチは、クエリと製品間の接続を強化するだけでなく、推論効率も改善します。
このモデルは、検索効率の最大化に最適化されたコードを生成するために、協調調整戦略を使用する。
さらに、異なるコード間で製品値を比較するクエリプロダクトスコアリング機構を導入し、検索効率をさらに向上する。
大規模なオフラインおよびオンラインA/Bテストは、GRAMが従来のモデルと最新の生成的検索モデルを大きく上回っており、その有効性と実用性を確認していることを示している。
関連論文リスト
- Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Semantic Ads Retrieval at Walmart eCommerce with Language Models Progressively Trained on Multiple Knowledge Domains [6.1008328784394]
Walmart.comの広告検索システムを最適化するために,エンド・ツー・エンドのソリューションを提案する。
当社のアプローチは,製品カテゴリ情報を用いたBERTライクな分類モデルを事前学習することである。
ベースラインDSSMベースのモデルと比較して,検索関連度を最大16%向上させる。
論文 参考訳(メタデータ) (2025-02-13T09:01:34Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Generative Retrieval with Preference Optimization for E-commerce Search [16.78829577915103]
我々は、好みを最適化した生成検索という、Eコマース検索のための革新的なフレームワークを開発する。
生の項目のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクを、クエリからマルチスパン識別子を生成するタスクに変換する。
実験の結果,本フレームワークは実世界のデータセット上での競合性能を実現し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示した。
論文 参考訳(メタデータ) (2024-07-29T09:31:19Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Hi-Gen: Generative Retrieval For Large-Scale Personalized E-commerce Search [9.381220988816219]
本稿では,大規模パーソナライズされたEコマース検索システムのための効率的な階層符号化復号生成検索手法(Hi-Gen)を提案する。
まず、メトリック学習を用いて表現学習モデルを構築し、アイテムの識別的特徴表現を学習する。
そこで本研究では,カテゴリ誘導型階層クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-04-24T06:05:35Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Extreme Multi-label Learning for Semantic Matching in Product Search [41.66238191444171]
顧客クエリが与えられたら、1億以上の巨大なカタログから、すべてのセマンティック関連製品を取得する。
高速リアルタイム推論のためのn-gram特徴を持つ階層線形モデルを考える。
提案手法では,クエリ毎1.25ミリ秒の低レイテンシを維持し,Recall@100の65%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-23T21:16:52Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。