論文の概要: KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance
- arxiv url: http://arxiv.org/abs/2602.11518v1
- Date: Thu, 12 Feb 2026 03:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.618824
- Title: KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance
- Title(参考訳): KuaiSearch:リコール、ランキング、関連性のための大規模なEコマース検索データセット
- Authors: Yupeng Li, Ben Chen, Mingyue Cheng, Zhiding Liu, Xuxin Zhang, Chenyi Lei, Wenwu Ou,
- Abstract要約: KuaiSearchは、Kuaishouプラットフォームからの実際のユーザー検索インタラクションに基づいて構築されている。
これは現在利用可能な最大のeコマース検索データセットである。
製品,ユーザ,クエリなど,さまざまな観点からKuaiSearchを包括的に分析する。
- 参考スコア(独自算出の注目度): 15.267709380182708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce search serves as a central interface, connecting user demands with massive product inventories and plays a vital role in our daily lives. However, in real-world applications, it faces challenges, including highly ambiguous queries, noisy product texts with weak semantic order, and diverse user preferences, all of which make it difficult to accurately capture user intent and fine-grained product semantics. In recent years, significant advances in large language models (LLMs) for semantic representation and contextual reasoning have created new opportunities to address these challenges. Nevertheless, existing e-commerce search datasets still suffer from notable limitations: queries are often heuristically constructed, cold-start users and long-tail products are filtered out, query and product texts are anonymized, and most datasets cover only a single stage of the search pipeline. Collectively, these issues constrain research on LLM-based e-commerce search. To address these challenges, we construct and release KuaiSearch. To the best of our knowledge, it is the largest e-commerce search dataset currently available. KuaiSearch is built upon real user search interactions from the Kuaishou platform, preserving authentic user queries and natural-language product texts, covering cold-start users and long-tail products, and systematically spanning three key stages of the search pipeline: recall, ranking, and relevance judgment. We conduct a comprehensive analysis of KuaiSearch from multiple perspectives, including products, users, and queries, and establish benchmark experiments across several representative search tasks. Experimental results demonstrate that KuaiSearch provides a valuable foundation for research on real-world e-commerce search.
- Abstract(参考訳): 電子商取引検索は、ユーザーの要求を巨大な製品在庫と結びつける中心的なインターフェースとして機能し、私たちの日常生活において重要な役割を果たす。
しかし、現実世界のアプリケーションでは、非常にあいまいなクエリ、弱いセマンティックな順序のノイズの多い製品テキスト、多様なユーザの好みといった課題に直面します。
近年,意味表現や文脈推論のための大規模言語モデル (LLM) の大幅な進歩が,これらの課題に対処する新たな機会を生み出している。
クエリはしばしばヒューリスティックに構築され、コールドスタートユーザとロングテール製品はフィルタリングされ、クエリとプロダクトのテキストは匿名化され、ほとんどのデータセットは検索パイプラインの1つのステージのみをカバーする。
これらの課題はLLMベースのeコマースサーチの研究を総括的に制限している。
これらの課題に対処するため、KuaiSearchを構築しリリースします。
私たちの知る限りでは、現在利用可能なEコマース検索データセットとしては最大である。
KuaiSearchは、Kuaishouプラットフォームからの実際のユーザ検索インタラクションに基づいて構築されており、認証されたユーザクエリと自然言語の製品テキストを保存し、コールドスタートユーザとロングテール製品をカバーするとともに、検索パイプラインの3つの重要なステージであるリコール、ランキング、関連性判定を体系的に対象とする。
製品やユーザ,クエリなど,さまざまな視点からKuaiSearchを包括的に分析し,いくつかの代表的な検索タスクを対象としたベンチマーク実験を確立する。
実験の結果,KuaiSearchは現実世界のeコマース検索研究に有用な基盤を提供することがわかった。
関連論文リスト
- DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - Generative Retrieval with Preference Optimization for E-commerce Search [16.78829577915103]
我々は、好みを最適化した生成検索という、Eコマース検索のための革新的なフレームワークを開発する。
生の項目のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクを、クエリからマルチスパン識別子を生成するタスクに変換する。
実験の結果,本フレームワークは実世界のデータセット上での競合性能を実現し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示した。
論文 参考訳(メタデータ) (2024-07-29T09:31:19Z) - Leveraging Large Language Models for Multimodal Search [0.6249768559720121]
本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。
また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
論文 参考訳(メタデータ) (2024-04-24T10:30:42Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Searching, fast and slow, through product catalogs [5.077235981745305]
本稿では、リアルタイム提案システムと低レイテンシ検索システムの両方を提供するSKU検索のための統一アーキテクチャを提案する。
我々のシステムは、あらゆる面で、デフォルトの検索エンジンによって提供される結果を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-01T12:30:46Z) - Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文 参考訳(メタデータ) (2023-10-23T05:52:09Z) - Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving
Product Search [26.772851310517954]
本稿では,難解なAmazon検索クエリと結果の大規模なデータセットである“ショッピングクエリデータセット”を紹介する。
データセットには、約130万のユニークなクエリと、手作業による(製品)関連判断が260万個含まれている。
データセットはKDDCup'22の課題のひとつで使用されている。
論文 参考訳(メタデータ) (2022-06-14T04:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。