論文の概要: Synthetic Data Powers Product Retrieval for Long-tail Knowledge-Intensive Queries in E-commerce Search
- arxiv url: http://arxiv.org/abs/2602.23620v1
- Date: Fri, 27 Feb 2026 02:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.216408
- Title: Synthetic Data Powers Product Retrieval for Long-tail Knowledge-Intensive Queries in E-commerce Search
- Title(参考訳): Eコマース検索におけるLong-tail Knowledge-Intensive Queriesのための合成データによる製品検索
- Authors: Gui Ling, Weiyuan Li, Yue Jiang, Wenjun Peng, Xingxian Liu, Dongshuai Li, Fuyu Lv, Dan Ou, Haihong Tang,
- Abstract要約: 製品検索はeコマース検索のバックボーンであり、高品質のランキングとユーザー体験の基礎を築いた。
メインストリームクエリの広範な最適化にもかかわらず、既存のシステムは依然としてロングテールクエリに苦戦している。
本稿では,長期の知識集約型クエリを含む検索に適した効率的なデータ合成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.441153527403163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product retrieval is the backbone of e-commerce search: for each user query, it identifies a high-recall candidate set from billions of items, laying the foundation for high-quality ranking and user experience. Despite extensive optimization for mainstream queries, existing systems still struggle with long-tail queries, especially knowledge-intensive ones. These queries exhibit diverse linguistic patterns, often lack explicit purchase intent, and require domain-specific knowledge reasoning for accurate interpretation. They also suffer from a shortage of reliable behavioral logs, which makes such queries a persistent challenge for retrieval optimization. To address these issues, we propose an efficient data synthesis framework tailored to retrieval involving long-tail, knowledge-intensive queries. The key idea is to implicitly distill the capabilities of a powerful offline query-rewriting model into an efficient online retrieval system. Leveraging the strong language understanding of LLMs, we train a multi-candidate query rewriting model with multiple reward signals and capture its rewriting capability in well-curated query-product pairs through a powerful offline retrieval pipeline. This design mitigates distributional shift in rewritten queries, which might otherwise limit incremental recall or introduce irrelevant products. Experiments demonstrate that without any additional tricks, simply incorporating this synthetic data into retrieval model training leads to significant improvements. Online Side-By-Side (SBS) human evaluation results indicate a notable enhancement in user search experience.
- Abstract(参考訳): 製品検索はeコマース検索のバックボーンであり、ユーザークエリ毎に何十億ものアイテムからなるハイリコール候補を特定し、高品質なランキングとユーザーエクスペリエンスの基盤となる。
メインストリームクエリの広範な最適化にもかかわらず、既存のシステムは長いテールクエリ、特に知識集約クエリに苦戦している。
これらのクエリは多様な言語パターンを示し、しばしば明示的な購入意図が欠如しており、正確な解釈のためにドメイン固有の知識を必要とする。
また、信頼性の高い振る舞いログが不足しているため、このようなクエリは、検索の最適化において永続的な課題となる。
これらの課題に対処するために,長い知識集約型クエリを含む検索に適した効率的なデータ合成フレームワークを提案する。
鍵となる考え方は、強力なオフラインクエリ-リライトモデルの能力を、効率的なオンライン検索システムに暗黙的に蒸留することである。
LLMの強力な言語理解を活用することで、複数の報酬信号を持つマルチ候補クエリ書き換えモデルをトレーニングし、強力なオフライン検索パイプラインを通じて、よく計算されたクエリ-製品ペアの書き換え能力をキャプチャする。
この設計は、リライトされたクエリの分散シフトを軽減し、それ以外はインクリメンタルリコールを制限するか、無関係な製品を導入する可能性がある。
実験では、追加のトリックがなければ、この合成データを検索モデルトレーニングに組み込むことで、大幅な改善がもたらされることが示されている。
Online Side-By-Side (SBS) human evaluation results shows a significant enhancement in user search experience。
関連論文リスト
- LLMs as Sparse Retrievers:A Framework for First-Stage Product Search [103.70006474544364]
プロダクト検索は、現代のeコマースプラットフォームにおいて重要な要素であり、毎日何十億ものユーザークエリがある。
スパース検索法は語彙ミスマッチの問題に悩まされ, 製品検索のシナリオにおいて, 最適以下の性能が向上する。
セマンティック分析の可能性により、大言語モデル(LLM)は語彙ミスマッチ問題を緩和するための有望な道を提供する。
本稿では,SParsE Retrievers として LLM を利用した製品検索フレームワーク PROSPER を提案する。
論文 参考訳(メタデータ) (2025-10-21T11:13:21Z) - Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。
提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文 参考訳(メタデータ) (2025-10-19T16:46:11Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Generating Query-Relevant Document Summaries via Reinforcement Learning [5.651096645934245]
ReLSumは、検索関連性に最適化された製品記述のクエリ関連要約を生成するために設計された強化学習フレームワークである。
このフレームワークは、トレーニング可能な大言語モデル(LLM)を使用して要約を生成し、その後、クロスエンコーダランキングモデルの入力として使用される。
実験の結果、オンラインユーザエンゲージメント指標と同様に、リコールやNDCGを含むオフラインメトリクスの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-08-11T18:52:28Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Generative Retrieval and Alignment Model: A New Paradigm for E-commerce Retrieval [12.318142818707317]
本稿では,GRAM(Generative Retrieval and Alignment Model)という新しいeコマース検索パラダイムを紹介する。
GRAMは、クエリと製品の両方からのテキスト情報を共同でトレーニングして、共有テキストコードを生成する。
GRAMは従来のモデルと最新の生成的検索モデルを大きく上回っている。
論文 参考訳(メタデータ) (2025-04-02T06:40:09Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Generative Retrieval with Preference Optimization for E-commerce Search [16.78829577915103]
我々は、好みを最適化した生成検索という、Eコマース検索のための革新的なフレームワークを開発する。
生の項目のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクを、クエリからマルチスパン識別子を生成するタスクに変換する。
実験の結果,本フレームワークは実世界のデータセット上での競合性能を実現し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示した。
論文 参考訳(メタデータ) (2024-07-29T09:31:19Z) - Improving Retrieval in Sponsored Search by Leveraging Query Context Signals [6.152499434499752]
本稿では,クエリをリッチなコンテキスト信号で拡張することで,クエリ理解を強化する手法を提案する。
我々は、Web検索のタイトルとスニペットを使って、現実世界の情報にクエリを接地し、GPT-4を使ってクエリの書き直しと説明を生成する。
我々の文脈認識アプローチは文脈自由モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-19T14:28:53Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Query Rewriting via Cycle-Consistent Translation for E-Commerce Search [13.723266150864037]
本稿では,新しいディープニューラルネットワークによる問合せ書き換え手法を提案する。
繰り返し機械翻訳問題にクエリ書き換えを定式化します。
最新の機械翻訳モデルと連動した、新しいサイクル整合性トレーニングアルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-03-01T06:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。