論文の概要: TaoSearchEmb: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search
- arxiv url: http://arxiv.org/abs/2511.13885v1
- Date: Mon, 17 Nov 2025 20:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.780865
- Title: TaoSearchEmb: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search
- Title(参考訳): TaoSearchEmb:多目的強化学習フレームワーク
- Authors: Xingxian Liu, Dongshuai Li, Tao Wen, Jiahui Wan, Gui Ling, Fuyu Lv, Dan Ou, Haihong Tang,
- Abstract要約: Retrieval-GRPOは強化学習に基づく高密度検索フレームワークである。
中国最大のeコマースプラットフォームに配備されている。
- 参考スコア(独自算出の注目度): 11.893855231479717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrieval, as the core component of e-commerce search engines, maps user queries and items into a unified semantic space through pre-trained embedding models to enable large-scale real-time semantic retrieval. Despite the rapid advancement of LLMs gradually replacing traditional BERT architectures for embedding, their training paradigms still adhere to BERT-like supervised fine-tuning and hard negative mining strategies. This approach relies on complex offline hard negative sample construction pipelines, which constrain model iteration efficiency and hinder the evolutionary potential of semantic representation capabilities. Besides, existing multi-task learning frameworks face the seesaw effect when simultaneously optimizing semantic relevance and non-relevance objectives. In this paper, we propose Retrieval-GRPO, a multi-objective reinforcement learning-based dense retrieval framework designed to address these challenges. The method eliminates offline hard negative sample construction by dynamically retrieving Top-K candidate products for each query during training, while introducing a relevance LLM as a reward model to generate real-time feedback. Specifically, the retrieval model dynamically optimizes embedding representations through reinforcement learning, with reward signals combining LLM-generated relevance scores, product quality scores, and multi-way exclusivity metrics to achieve multi-objective user preference alignment and real-time error correction. This mechanism not only removes dependency on hard negatives but also mitigates the seesaw effect through collaborative multi-objective optimization, significantly enhancing the model's semantic generalization capability for complex long-tail queries. Extensive offline and online experiments validate the effectiveness of Retrieval-GRPO, which has been deployed on China's largest e-commerce platform.
- Abstract(参考訳): デンス検索は、Eコマース検索エンジンのコアコンポーネントとして、事前訓練された埋め込みモデルを通じて、ユーザクエリやアイテムを統一的なセマンティック空間にマッピングし、大規模なリアルタイムセマンティック検索を可能にする。
LLM の急速な進歩は、従来の BERT アーキテクチャを徐々に置き換えたものの、その訓練パラダイムは依然として BERT のような微調整と厳しい負の採掘戦略に固執している。
このアプローチは、複雑なオフラインのハードネガティブサンプル構築パイプラインに依存しており、モデルの反復効率を制約し、意味表現能力の進化的ポテンシャルを妨げる。
さらに、既存のマルチタスク学習フレームワークは、意味的関連性と非関連性を同時に最適化する際にシーソー効果に直面している。
本稿では,これらの課題に対処するために,多目的強化学習に基づく高密度検索フレームワークRetrieval-GRPOを提案する。
トレーニング中の各クエリに対してTop-K候補商品を動的に検索し、リアルタイムフィードバックを生成するための報酬モデルとして関連LLMを導入することにより、オフラインのハードネガティブサンプル構築を除去する。
具体的には、LLM生成の関連スコア、製品品質スコア、マルチウェイ排他的指標を組み合わせた報酬信号を用いて、強化学習による埋め込み表現を動的に最適化し、多目的ユーザ嗜好アライメントとリアルタイムエラー修正を実現する。
このメカニズムは、ハード負の依存性を取り除くだけでなく、協調的な多目的最適化を通じてシーソー効果を緩和し、複雑なロングテールクエリに対するモデルのセマンティック一般化能力を著しく向上させる。
大規模なオフラインおよびオンライン実験は、中国最大のeコマースプラットフォームにデプロイされたRetrieval-GRPOの有効性を検証する。
関連論文リスト
- Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm [16.78399933831573]
本稿では、推論過程を表現学習に統合するLarge Reasoning Embedding Model(LREM)を提案する。
難解なクエリに対して、LREMはまず、元のクエリの深い理解を達成するために推論を行い、その後、検索のための推論拡張クエリ埋め込みを生成する。
この推論プロセスは、元のクエリとターゲットアイテム間のセマンティックギャップを効果的にブリッジし、検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-16T05:37:39Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Representation Alignment Contrastive Regularization for Multi-Object Tracking [29.837560662395713]
多目的追跡アルゴリズムのメインストリーム性能は、データアソシエーション段階における重時間関係のモデリングに依存する。
この研究は、深層学習に基づく時間的関係モデルを単純化し、データアソシエーション設計に解釈可能性を導入することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T08:33:08Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。