論文の概要: TaoSR-SHE: Stepwise Hybrid Examination Reinforcement Learning Framework for E-commerce Search Relevance
- arxiv url: http://arxiv.org/abs/2510.07972v1
- Date: Thu, 09 Oct 2025 09:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.975253
- Title: TaoSR-SHE: Stepwise Hybrid Examination Reinforcement Learning Framework for E-commerce Search Relevance
- Title(参考訳): TaoSR-SHE:eコマース検索関連のための段階的ハイブリッド試験強化学習フレームワーク
- Authors: Pengkun Jiao, Yiming Jin, Jianhui Yang, Chenhe Dong, Zerui Huang, Shaowei Yao, Xiaojiang Zhou, Dan Ou, Haihong Tang,
- Abstract要約: TaoSR-SHE(TaoSR-SHE)のための段階的ハイブリッド試験強化学習フレームワークについて紹介する。
ステップワイド・リワード・ポリシー・オプティマイゼーション(SRPO)は、高品質な生成段階報酬モデルと人間の注釈付きオフライン検証器のハイブリッドによって生成されるステップレベルの報酬を利用する強化学習アルゴリズムである。
実世界の検索ベンチマーク実験により,TaoSR-SHEは大規模eコマース環境での推論品質と関連予測精度の両方を改善した。
- 参考スコア(独自算出の注目度): 10.092283121886679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query-product relevance analysis is a foundational technology in e-commerce search engines and has become increasingly important in AI-driven e-commerce. The recent emergence of large language models (LLMs), particularly their chain-of-thought (CoT) reasoning capabilities, offers promising opportunities for developing relevance systems that are both more interpretable and more robust. However, existing training paradigms have notable limitations: SFT and DPO suffer from poor generalization on long-tail queries and from a lack of fine-grained, stepwise supervision to enforce rule-aligned reasoning. In contrast, reinforcement learning with verification rewards (RLVR) suffers from sparse feedback, which provides insufficient signal to correct erroneous intermediate steps, thereby undermining logical consistency and limiting performance in complex inference scenarios. To address these challenges, we introduce the Stepwise Hybrid Examination Reinforcement Learning framework for Taobao Search Relevance (TaoSR-SHE). At its core is Stepwise Reward Policy Optimization (SRPO), a reinforcement learning algorithm that leverages step-level rewards generated by a hybrid of a high-quality generative stepwise reward model and a human-annotated offline verifier, prioritizing learning from critical correct and incorrect reasoning steps. TaoSR-SHE further incorporates two key techniques: diversified data filtering to encourage exploration across varied reasoning paths and mitigate policy entropy collapse, and multi-stage curriculum learning to foster progressive capability growth. Extensive experiments on real-world search benchmarks show that TaoSR-SHE improves both reasoning quality and relevance-prediction accuracy in large-scale e-commerce settings, outperforming SFT, DPO, GRPO, and other baselines, while also enhancing interpretability and robustness.
- Abstract(参考訳): クエリ製品関連分析は、eコマース検索エンジンの基本技術であり、AI駆動のeコマースにおいてますます重要になっている。
最近の大規模言語モデル(LLM)の出現、特にそのチェーン・オブ・ソート(CoT)推論能力は、より解釈可能でより堅牢な関連システムを開発するための有望な機会を提供する。
しかし、既存の訓練パラダイムには顕著な制限がある: SFT と DPO はロングテールクエリの一般化が不十分で、ルール整合推論を強制するための厳密で段階的な監督が欠如している。
対照的に、検証報酬付き強化学習(RLVR)はスパースフィードバックに悩まされ、誤った中間ステップの修正に不十分な信号を与え、複雑な推論シナリオにおける論理的一貫性と性能の制限を損なう。
これらの課題に対処するために,TaoSR-SHE(TaoSR-SHE)のための段階的ハイブリッド試験強化学習フレームワークを導入する。
ステップワイド・リワード・ポリシー・オプティマイゼーション(SRPO)は、高品質な生成段階報酬モデルと人間の注釈付きオフライン検証器のハイブリッドによって生成されたステップレベルの報酬を利用して、重要な正当性と誤った推論ステップから学習を優先順位付けする強化学習アルゴリズムである。
TaoSR-SHEはさらに、様々な推論経路を探索し、ポリシーのエントロピー崩壊を緩和するための多様化されたデータフィルタリングと、プログレッシブな能力成長を促進するための多段階のカリキュラム学習の2つの主要なテクニックを取り入れている。
TaoSR-SHEは、大規模なeコマース環境での推論品質と関連予測精度を向上し、SFT、DPO、GRPO、その他のベースラインを上回りながら、解釈可能性と堅牢性を向上する。
関連論文リスト
- ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - TaoSR-AGRL: Adaptive Guided Reinforcement Learning Framework for E-commerce Search Relevance [10.092283121886679]
TaoSR-AGRL は Taobao Search Relevance における関連予測のための適応ガイド強化学習フレームワークである。
最終的な関連判断を、ドメイン固有の関連基準に沿った、密集した構造化された報酬に分解する。
オフライン実験において、DPOと標準GRPOのベースラインを一貫して上回り、関連性精度、規則順守、トレーニング安定性を改善している。
論文 参考訳(メタデータ) (2025-10-09T10:34:39Z) - TaoSR1: The Thinking Model for E-commerce Relevance Search [8.532849325470632]
BERTベースのモデルはセマンティックマッチングが優れているが、複雑な推論能力がない。
本稿では,このタスクのために大規模言語モデルを直接デプロイするフレームワークを提案する。このフレームワークは,CoT(Chain-of-Thought)エラーの蓄積,差別的幻覚,デプロイメント実現可能性など,主要な課題に対処する。
筆者らのフレームワークであるTaoSR1は,(1)CoTを用いた教師付ファインチューニング(SFT),(2)パス@N戦略によるオフラインサンプリングとDPOによる生成品質向上,(3)グループ相対政策最適化(GRPO)による難易度に基づく動的サンプリングの3段階からなる。
論文 参考訳(メタデータ) (2025-08-17T13:48:48Z) - VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning [19.457621121430464]
STEM領域での強化学習を伴う大規模推論モデル(LRM)の訓練は、高品質で多様性があり、検証可能な問題セットの不足によって妨げられる。
検証可能な報酬(RLVR)を用いたLRM強化学習における高品質アラインド推論問題の一元化手法であるSHARPを導入する。
我々は、最先端のLEMを活用して、難解なSTEM質問を推論し、検証し、次に、強化学習ループを使用して、検証可能な報酬信号によってモデルの推論を洗練する。
論文 参考訳(メタデータ) (2025-05-20T09:54:42Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。