論文の概要: Negative Data Mining for Contrastive Learning in Dense Retrieval at IKEA.com
- arxiv url: http://arxiv.org/abs/2605.00353v1
- Date: Fri, 01 May 2026 02:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.824036
- Title: Negative Data Mining for Contrastive Learning in Dense Retrieval at IKEA.com
- Title(参考訳): IKEA.comにおけるDense Retrievalにおけるコントラスト学習のための負のデータマイニング
- Authors: Eva Agapaki, Amritpal Singh Gill,
- Abstract要約: 本稿では,構造的負のサンプリング戦略を用いて,IKEA製品検索の高密度検索を改善するための体系的アプローチを提案する。
本手法は,カナダ市場でのオフライン実ユーザクエリ実験において,平均カテゴリ精度+2.6%を達成している。
長テールクエリに対するA/Bテストでは、改善されたモデルとベースラインモデルの間のユーザエンゲージメントの指標に統計的に有意な差は見られなかった。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning is a core component of modern retrieval systems, but its effectiveness heavily relies on the quality of negative examples used during training. In this work, we present a systematic approach to improving dense retrieval for IKEA product search through structured negative sampling strategies and scalable LLM-as-a-judge relevance evaluation. Building on IKEA Search Engine's late-interaction retrieval architectures, we introduce two key contributions: (1) structured negative sampling strategies that leverage product hierarchical taxonomy and product attributes to generate semantically challenging negatives, and (2) a comprehensive LLM-based evaluation methodology for generating training data. Rather than relying on sparse human annotations or random sampling, our LLM-based evaluation system allocates a score for all candidate products against each query. Our methodology achieves +2.6\% average category accuracy on offline real user query experiments on the Canada market. However, our A/B test on long-tail queries showed no statistically significant differences in user engagement metrics between the improved and baseline models ($p > 0.05$). We trace this gap to user search behavior: 67\% of popular searches exhibit zero-click rates above 50\%, indicating that a substantial proportion of search sessions result in no product engagement regardless of result ranking. These findings underscore the importance of hard negative mining but also the need for grounding training data and offline evals in real user search behavior -- including query intent distribution and zero-click patterns -- to bridge the gap between offline retrieval quality and online user engagement.
- Abstract(参考訳): コントラスト学習は現代の検索システムの中核的な要素であるが、その有効性は訓練中に使われるネガティブな例の品質に大きく依存している。
本研究では,構造的負のサンプリング戦略とスケーラブルなLCM-as-a-judge関連性評価を通じて,IKEA製品検索の高密度検索を改善するための体系的アプローチを提案する。
IKEA検索エンジンの遅延相互作用検索アーキテクチャを基盤として,(1)製品階層的分類と製品属性を利用して意味論的に難解なネガを生成する構造的ネガティブサンプリング戦略,(2)学習データを生成するための総合的LCMに基づく評価手法を紹介する。
人間のアノテーションやランダムサンプリングに頼らず,LLMに基づく評価システムでは,各クエリに対して,候補商品のスコアを割り当てる。
本手法は,カナダ市場でのオフライン実ユーザクエリ実験において,平均カテゴリ精度を+2.6%向上させる。
しかし、長テールクエリに対するA/Bテストでは、改善されたモデルとベースラインモデルのユーザエンゲージメントの指標に統計的に有意な差はなかった(p > 0.05$)。
人気検索の67\%は、50\%以上のゼロクリック率を示しており、検索結果のランキングに関わらず、検索セッションのかなりの割合は製品エンゲージメントを伴わないことを示している。
これらの調査結果は、オフライン検索品質とオンラインユーザエンゲージメントのギャップを埋めるため、厳しい負のマイニングの重要性を浮き彫りにしただけでなく、実際のユーザ検索行動(クエリインテントの分散やゼロクリックパターンなど)におけるトレーニングデータとオフラインのevalの基盤化の必要性も浮き彫りにしている。
関連論文リスト
- CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search [51.911048955965136]
CoSearchは多段階推論エージェントと生成ドキュメントランキングモデルを共同でトレーニングするフレームワークである。
この結果から, 推論エージェントと検索システムの協調訓練は, 実現可能であり, 性能も高いことが示唆された。
論文 参考訳(メタデータ) (2026-04-19T17:48:17Z) - Aligning Large Language Models with Searcher Preferences [26.974618053554394]
オープンな生成検索のための最初の大規模言語モデル(LLM)であるSearchLLMを紹介する。
ボトムライン制約を分離する階層型多次元報酬システムの設計を行う。
オフライン評価とオンラインA/Bテストでは、生成品質とユーザエンゲージメントが改善されている。
論文 参考訳(メタデータ) (2026-03-11T06:44:30Z) - TaoSearchEmb: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search [11.893855231479717]
Retrieval-GRPOは強化学習に基づく高密度検索フレームワークである。
中国最大のeコマースプラットフォームに配備されている。
論文 参考訳(メタデータ) (2025-11-17T20:16:52Z) - Improving E-commerce Search with Category-Aligned Retrieval [0.0]
カテゴリー対応検索システム(CARS)は,まずユーザのクエリから製品カテゴリを予測し,そのカテゴリ内で製品を強化することによって,検索関連性を向上させる。
本稿では,クエリの埋め込みから"Trainable Category Prototypes"を作成する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-09-03T20:43:52Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - LLM-Driven Usefulness Judgment for Web Search Evaluation [12.10711284043516]
情報検索(IR)における検索体験の最適化と多種多様なユーザ意図支援の基礎的評価
従来の検索評価手法は主に関連ラベルに依存しており、検索された文書がユーザのクエリとどのようにマッチするかを評価する。
本稿では,文書の有用性を評価するために,暗黙的かつ明示的なユーザ行動信号の両方を組み込んだLCM生成実用性ラベルを提案する。
論文 参考訳(メタデータ) (2025-04-19T20:38:09Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。