論文の概要: Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval
- arxiv url: http://arxiv.org/abs/2602.17654v1
- Date: Thu, 19 Feb 2026 18:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.415193
- Title: Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval
- Title(参考訳): 鉱業と鉱業:Eコマース検索検索のグレード・レバレンスを最適化
- Authors: Jiaqi Xi, Raghav Saboo, Luming Chen, Martin Wang, Sudeep Das,
- Abstract要約: 大規模なeコマース検索要求は、長い尾のノイズの多いクエリに一般化される。
セマンティックテキスト埋め込みのための2段階の「Mine and Refine」コントラスト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.1241290518951197
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a two-stage "Mine and Refine" contrastive training framework for semantic text embeddings to enhance multi-category e-commerce search retrieval. Large scale e-commerce search demands embeddings that generalize to long tail, noisy queries while adhering to scalable supervision compatible with product and policy constraints. A practical challenge is that relevance is often graded: users accept substitutes or complements beyond exact matches, and production systems benefit from clear separation of similarity scores across these relevance strata for stable hybrid blending and thresholding. To obtain scalable policy consistent supervision, we fine-tune a lightweight LLM on human annotations under a three-level relevance guideline and further reduce residual noise via engagement driven auditing. In Stage 1, we train a multilingual Siamese two-tower retriever with a label aware supervised contrastive objective that shapes a robust global semantic space. In Stage 2, we mine hard samples via ANN and re-annotate them with the policy aligned LLM, and introduce a multi-class extension of circle loss that explicitly sharpens similarity boundaries between relevance levels, to further refine and enrich the embedding space. Robustness is additionally improved through additive spelling augmentation and synthetic query generation. Extensive offline evaluations and production A/B tests show that our framework improves retrieval relevance and delivers statistically significant gains in engagement and business impact.
- Abstract(参考訳): セマンティックテキスト埋め込みのための2段階の「Mine and Refine」コントラスト学習フレームワークを提案する。
大規模なeコマース検索要求は、製品やポリシーの制約と互換性のあるスケーラブルな監視に固執しつつ、長い尾のノイズの多いクエリに一般化する。
ユーザーは、正確なマッチを超える代替品や補薬を受け付け、生産システムは、安定したハイブリッドブレンディングとしきい値付けのために、これらの関係層間で類似性のスコアを明確に分離することの恩恵を受ける。
拡張性のあるポリシー一貫した監視を実現するため、3段階の関連ガイドラインの下で、人間のアノテーションに軽量なLLMを微調整し、エンゲージメント駆動監査による残音をさらに低減する。
ステージ1では、ロバストなグローバルな意味空間を形作るコントラスト的目的を指示するラベルを付けた多言語シームズ2towerレトリバーを訓練する。
ステージ2では、ANNを介してハードサンプルをマイニングし、ポリシーに適合したLCMで再注釈し、関連レベル間の類似性境界を明確に鋭くし、埋め込み空間をさらに洗練し、強化する円損失のマルチクラス拡張を導入する。
ロバストネスは加法的なスペル拡張と合成クエリ生成によって改善されている。
大規模なオフライン評価と生産A/Bテストは、我々のフレームワークが検索関連性を改善し、エンゲージメントとビジネスへの影響において統計的に有意な利益をもたらすことを示している。
関連論文リスト
- Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search [31.824675235862532]
Pailitao-VLは、リアルタイム産業検索のために設計された総合的なマルチモーダル検索システムである。
我々は,現在のSOTAソリューションにおける3つの重要な課題に対処する。
この研究は、大規模生産環境に高度なMLLMベースの検索アーキテクチャを展開するための、堅牢でスケーラブルな経路を示す。
論文 参考訳(メタデータ) (2026-02-14T10:13:48Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - R2LED: Equipping Retrieval and Refinement in Lifelong User Modeling with Semantic IDs for CTR Prediction [23.668401664583758]
セマンティックIDを用いた生涯ユーザモデリング(R2LED)における検索と改善のための新しいパラダイムを提案する。
まず,検索段階における複数経路混合検索手法を提案する。一方,協調的視点と意味的視点の両方から効率よく候補を検索する混合検索機構を提案する。
改良のために,経路レベル核融合のための目標認識型クロスアテンションとSIDレベル核融合のためのゲート機構を含むBiレベル核融合リファインメントを設計する。
論文 参考訳(メタデータ) (2026-02-06T11:27:20Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - LLMs as Sparse Retrievers:A Framework for First-Stage Product Search [103.70006474544364]
プロダクト検索は、現代のeコマースプラットフォームにおいて重要な要素であり、毎日何十億ものユーザークエリがある。
スパース検索法は語彙ミスマッチの問題に悩まされ, 製品検索のシナリオにおいて, 最適以下の性能が向上する。
セマンティック分析の可能性により、大言語モデル(LLM)は語彙ミスマッチ問題を緩和するための有望な道を提供する。
本稿では,SParsE Retrievers として LLM を利用した製品検索フレームワーク PROSPER を提案する。
論文 参考訳(メタデータ) (2025-10-21T11:13:21Z) - SETR: A Two-Stage Semantic-Enhanced Framework for Zero-Shot Composed Image Retrieval [4.230223288110963]
Zero-shot Composed Image Retrieval (ZS-CIR)は、トリプルトアノテーションに頼ることなく、参照画像と相対テキストが与えられたターゲット画像を取得することを目的としている。
既存のCLIPベースの手法では、(1)組合ベースの特徴融合は、意図した変更を希釈する無関係な背景の詳細を担いながら、すべての視覚的手がかりを無差別に集約し、(2)CLIP埋め込みからのグローバルなコサイン類似性は、きめ細かいセマンティックな関係を解く能力に欠ける。
論文 参考訳(メタデータ) (2025-09-30T09:41:52Z) - Balancing Semantic Relevance and Engagement in Related Video Recommendations [21.2575040646784]
関連ビデオレコメンデーションでは、協調フィルタリング(CF)をコエンゲージメント信号で駆動するのが一般的である。
本稿では,意味的関連性とユーザエンゲージメントのバランスをとるために,新しい多目的検索フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T21:04:25Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - LGAI-EMBEDDING-Preview Technical Report [41.68404082385825]
本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。
提案手法は,コンテキスト認識の埋め込みを生成するために,コンテキスト内学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせる。
その結果,本手法はボルダスコアによる最高性能モデルのうち,強い一般化とランクを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-06-09T05:30:35Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。