論文の概要: TaoSR-AGRL: Adaptive Guided Reinforcement Learning Framework for E-commerce Search Relevance
- arxiv url: http://arxiv.org/abs/2510.08048v1
- Date: Thu, 09 Oct 2025 10:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.013519
- Title: TaoSR-AGRL: Adaptive Guided Reinforcement Learning Framework for E-commerce Search Relevance
- Title(参考訳): TaoSR-AGRL:Eコマース検索関連のための適応ガイド強化学習フレームワーク
- Authors: Jianhui Yang, Yiming Jin, Pengkun Jiao, Chenhe Dong, Zerui Huang, Shaowei Yao, Xiaojiang Zhou, Dan Ou, Haihong Tang,
- Abstract要約: TaoSR-AGRL は Taobao Search Relevance における関連予測のための適応ガイド強化学習フレームワークである。
最終的な関連判断を、ドメイン固有の関連基準に沿った、密集した構造化された報酬に分解する。
オフライン実験において、DPOと標準GRPOのベースラインを一貫して上回り、関連性精度、規則順守、トレーニング安定性を改善している。
- 参考スコア(独自算出の注目度): 10.092283121886679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query-product relevance prediction is fundamental to e-commerce search and has become even more critical in the era of AI-powered shopping, where semantic understanding and complex reasoning directly shape the user experience and business conversion. Large Language Models (LLMs) enable generative, reasoning-based approaches, typically aligned via supervised fine-tuning (SFT) or preference optimization methods like Direct Preference Optimization (DPO). However, the increasing complexity of business rules and user queries exposes the inability of existing methods to endow models with robust reasoning capacity for long-tail and challenging cases. Efforts to address this via reinforcement learning strategies like Group Relative Policy Optimization (GRPO) often suffer from sparse terminal rewards, offering insufficient guidance for multi-step reasoning and slowing convergence. To address these challenges, we propose TaoSR-AGRL, an Adaptive Guided Reinforcement Learning framework for LLM-based relevance prediction in Taobao Search Relevance. TaoSR-AGRL introduces two key innovations: (1) Rule-aware Reward Shaping, which decomposes the final relevance judgment into dense, structured rewards aligned with domain-specific relevance criteria; and (2) Adaptive Guided Replay, which identifies low-accuracy rollouts during training and injects targeted ground-truth guidance to steer the policy away from stagnant, rule-violating reasoning patterns toward compliant trajectories. TaoSR-AGRL was evaluated on large-scale real-world datasets and through online side-by-side human evaluations on Taobao Search. It consistently outperforms DPO and standard GRPO baselines in offline experiments, improving relevance accuracy, rule adherence, and training stability. The model trained with TaoSR-AGRL has been successfully deployed in the main search scenario on Taobao, serving hundreds of millions of users.
- Abstract(参考訳): クエリ製品関連性予測はeコマース検索の基本であり、セマンティック理解と複雑な推論がユーザエクスペリエンスとビジネスコンバージョンを直接形成するAIショッピングの時代において、さらに重要になっている。
大規模言語モデル (LLM) は生成的、推論に基づくアプローチを可能にし、典型的には教師付き微調整 (SFT) や直接選好最適化 (DPO) のような選好最適化手法によって整列される。
しかし、ビジネスルールとユーザクエリの複雑さの増大は、長期的かつ困難なケースに対して堅牢な推論能力を持つモデルを実現するために既存のメソッドが使えないことを露呈する。
グループ相対的政策最適化(GRPO)のような強化学習戦略を通じてこの問題に対処する努力は、しばしば、多段階推論や収束の鈍化のための十分なガイダンスを提供する、疎い端末報酬に悩まされる。
これらの課題に対処するために,タオバオ検索関連におけるLLMに基づく関連予測のための適応ガイド強化学習フレームワークであるTaoSR-AGRLを提案する。
TaoSR-AGRLは,(1)ドメイン固有の関連基準に適合した最終関連判断を密集した構造的報酬に分解するルールアウェア・リワード・シェーピング,(2)訓練中の低精度のロールアウトを識別する適応的ガイド・リプレイ,および目標とした地道指導を注入し,規則違反推論パターンから順応的トラジェクトリーへ政策を誘導する。
TaoSR-AGRLは,大規模実世界のデータセットを用いて評価され,Taobao Searchのオンライン・バイ・サイド・ヒューマン・アセスメントを通じて評価された。
オフライン実験において、DPOと標準GRPOのベースラインを一貫して上回り、関連性精度、規則順守、トレーニング安定性を改善している。
TaoSR-AGRLでトレーニングされたモデルは、Taobaoのメインの検索シナリオにうまくデプロイされ、数億のユーザにサービスを提供している。
関連論文リスト
- STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - TaoSR1: The Thinking Model for E-commerce Relevance Search [8.532849325470632]
BERTベースのモデルはセマンティックマッチングが優れているが、複雑な推論能力がない。
本稿では,このタスクのために大規模言語モデルを直接デプロイするフレームワークを提案する。このフレームワークは,CoT(Chain-of-Thought)エラーの蓄積,差別的幻覚,デプロイメント実現可能性など,主要な課題に対処する。
筆者らのフレームワークであるTaoSR1は,(1)CoTを用いた教師付ファインチューニング(SFT),(2)パス@N戦略によるオフラインサンプリングとDPOによる生成品質向上,(3)グループ相対政策最適化(GRPO)による難易度に基づく動的サンプリングの3段階からなる。
論文 参考訳(メタデータ) (2025-08-17T13:48:48Z) - RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。
RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-24T01:39:34Z) - RACE-Align: Retrieval-Augmented and Chain-of-Thought Enhanced Preference Alignment for Large Language Models [11.107932406541865]
本稿では,従来の選好アライメント手法の限界に対処する新しいフレームワークであるRAS-Alignを紹介する。
RACE-Alignは、外部知識サポートと明示的なChain-of-Thought(CoT)推論を組み込んだバイナリ優先データセットを体系的に構築する。
Qwen3-1.7Bをベースモデルとして用いた伝統的な中国医学(TCM)における実験的検証は、RAS-Alignが元のベースモデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-06-03T10:36:38Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。