論文の概要: LLMs as Sparse Retrievers:A Framework for First-Stage Product Search
- arxiv url: http://arxiv.org/abs/2510.18527v1
- Date: Tue, 21 Oct 2025 11:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.444002
- Title: LLMs as Sparse Retrievers:A Framework for First-Stage Product Search
- Title(参考訳): スパースリトリーバーとしてのLCM:ファーストステージ製品検索のためのフレームワーク
- Authors: Hongru Song, Yu-an Liu, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Sen Li, Wenjun Peng, Fuyu Lv, Xueqi Cheng,
- Abstract要約: 本研究では,SParsE Retrieversとして大規模言語モデル(LLM)を利用した製品検索フレームワークを提案する。
PROSPERは,(1)残差補償機構を通じて低重み付きリテラル項を補強することにより,語彙展開における幻覚を緩和するリテラル残差ネットワークを組み込んだ。
大規模なオフラインおよびオンライン実験により、ProperSPERはスパースベースラインを著しく上回り、高度な高密度レトリバーに匹敵するリコール性能を達成することが示された。
- 参考スコア(独自算出の注目度): 103.70006474544364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product search is a crucial component of modern e-commerce platforms, with billions of user queries every day. In product search systems, first-stage retrieval should achieve high recall while ensuring efficient online deployment. Sparse retrieval is particularly attractive in this context due to its interpretability and storage efficiency. However, sparse retrieval methods suffer from severe vocabulary mismatch issues, leading to suboptimal performance in product search scenarios.With their potential for semantic analysis, large language models (LLMs) offer a promising avenue for mitigating vocabulary mismatch issues and thereby improving retrieval quality. Directly applying LLMs to sparse retrieval in product search exposes two key challenges:(1)Queries and product titles are typically short and highly susceptible to LLM-induced hallucinations, such as generating irrelevant expansion terms or underweighting critical literal terms like brand names and model numbers;(2)The large vocabulary space of LLMs leads to difficulty in initializing training effectively, making it challenging to learn meaningful sparse representations in such ultra-high-dimensional spaces.To address these challenges, we propose PROSPER, a framework for PROduct search leveraging LLMs as SParsE Retrievers. PROSPER incorporates: (1)A literal residual network that alleviates hallucination in lexical expansion by reinforcing underweighted literal terms through a residual compensation mechanism; and (2)A lexical focusing window that facilitates effective training initialization via a coarse-to-fine sparsification strategy.Extensive offline and online experiments show that PROSPER significantly outperforms sparse baselines and achieves recall performance comparable to advanced dense retrievers, while also achieving revenue increments online.
- Abstract(参考訳): プロダクト検索は、現代のeコマースプラットフォームにおいて重要な要素であり、毎日何十億ものユーザークエリがある。
製品検索システムでは,第1段階検索は高いリコールを達成し,効率的なオンライン展開を実現する必要がある。
スパース検索はこの文脈で特に魅力的なのは、解釈可能性と記憶効率のためである。
しかし,スパース検索手法は語彙ミスマッチの問題に悩まされ,製品検索のシナリオにおいて最適以下の性能がもたらされるため,意味解析の可能性を秘めているため,語彙ミスマッチ問題を緩和し,検索品質を向上させる上で有望な手段が提供される。
商品検索におけるスパース検索に LLM を直接適用すると,(1) 商品や商品のタイトルは,ブランド名やモデル番号など,無関係な拡張用語の生成や重要なリテラル用語の強調といった,LCM による幻覚に強く影響することが多い。(2) LLM の大きな語彙空間は,これらの超高次元空間における意味あるスパース表現の学習を効果的に行うことの難しさを招き,これらの課題に対処するため,SParsE Retrievers として LLM を利用した製品検索のためのフレームワーク ProSPER を提案する。
PROSPERは,(1)余剰補償機構を通じて低重み付きリテラル語を補強することにより,語彙拡張における幻覚を緩和するリテラル残響ネットワーク,(2)粗大化戦略による効果的なトレーニング初期化を促進するレキシカル集中ウィンドウを具体化した。
関連論文リスト
- Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm [16.78399933831573]
本稿では、推論過程を表現学習に統合するLarge Reasoning Embedding Model(LREM)を提案する。
難解なクエリに対して、LREMはまず、元のクエリの深い理解を達成するために推論を行い、その後、検索のための推論拡張クエリ埋め込みを生成する。
この推論プロセスは、元のクエリとターゲットアイテム間のセマンティックギャップを効果的にブリッジし、検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-16T05:37:39Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - CSPLADE: Learned Sparse Retrieval with Causal Language Models [12.930248566238243]
学習スパース検索(LSR)のための大規模言語モデル(LLM)の訓練における2つの課題を特定する。
本研究では,(1)トレーニング不安定を解消するための軽量適応訓練フェーズ,(2)双方向情報を実現するための2つのモデル変種を提案する。
これらの手法により,LSRモデルを8BスケールのLLMで学習し,インデックスサイズを縮小した競合検索性能を実現することができる。
論文 参考訳(メタデータ) (2025-04-15T02:31:34Z) - ScalingNote: Scaling up Retrievers with Large Language Models for Real-World Dense Retrieval [72.2676180980573]
大規模言語モデル(LLM)は、高密度検索のスケールアップに活用できる優れた性能を示した。
オンラインクエリ待ち時間を維持しながら、検索にLLMのスケーリング可能性を利用する2段階のScalingNoteを提案する。
両段階のスケーリング手法はエンド・ツー・エンドのモデルより優れており,産業シナリオにおけるLLMを用いた高密度検索のスケーリング法則を検証している。
論文 参考訳(メタデータ) (2024-11-24T09:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。