論文の概要: Optimizing Generative Ranking Relevance via Reinforcement Learning in Xiaohongshu Search
- arxiv url: http://arxiv.org/abs/2512.00968v1
- Date: Sun, 30 Nov 2025 16:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.521199
- Title: Optimizing Generative Ranking Relevance via Reinforcement Learning in Xiaohongshu Search
- Title(参考訳): Xiaohongshu Searchにおける強化学習による生成的ランク付け関連性の最適化
- Authors: Ziyang Zeng, Heming Jing, Jindong Chen, Xiangli Li, Hongyu Liu, Yixuan He, Zhengyu Li, Yige Sun, Zheyong Xie, Yuqing Yang, Shaosheng Cao, Jun Fan, Yi Wu, Yao Hu,
- Abstract要約: 関係モデリングにおいて、明示的推論が解釈可能性と性能の両方を高めることができるかどうかを考察する。
本研究では,Xiaohongshu 検索における関連性モデリングを推論タスクとして定式化する。
本稿では,強化学習(Reinforcement Learning, RL)に基づく学習フレームワークを導入し, GRMの基盤的推論能力を向上させる。
- 参考スコア(独自算出の注目度): 32.56725829132154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ranking relevance is a fundamental task in search engines, aiming to identify the items most relevant to a given user query. Traditional relevance models typically produce scalar scores or directly predict relevance labels, limiting both interpretability and the modeling of complex relevance signals. Inspired by recent advances in Chain-of-Thought (CoT) reasoning for complex tasks, we investigate whether explicit reasoning can enhance both interpretability and performance in relevance modeling. However, existing reasoning-based Generative Relevance Models (GRMs) primarily rely on supervised fine-tuning on large amounts of human-annotated or synthetic CoT data, which often leads to limited generalization. Moreover, domain-agnostic, free-form reasoning tends to be overly generic and insufficiently grounded, limiting its potential to handle the diverse and ambiguous cases prevalent in open-domain search. In this work, we formulate relevance modeling in Xiaohongshu search as a reasoning task and introduce a Reinforcement Learning (RL)-based training framework to enhance the grounded reasoning capabilities of GRMs. Specifically, we incorporate practical business-specific relevance criteria into the multi-step reasoning prompt design and propose Stepwise Advantage Masking (SAM), a lightweight process-supervision strategy which facilitates effective learning of these criteria through improved credit assignment. To enable industrial deployment, we further distill the large-scale RL-tuned model to a lightweight version suitable for real-world search systems. Extensive experiments on industrial datasets, along with online A/B tests, demonstrate the effectiveness of our approach.
- Abstract(参考訳): ランク付け関連性は検索エンジンの基本的な課題であり、与えられたユーザクエリに最も関連のある項目を特定することを目的としている。
伝統的な関連モデルは一般的にスカラースコアを生成したり、直接関連ラベルを予測したりし、解釈可能性と複雑な関連信号のモデリングの両方を制限する。
複雑なタスクに対するChain-of-Thought(CoT)推論の最近の進歩に触発されて、関係モデリングにおける明示的推論が解釈可能性と性能の両方を高めることができるかどうかを検討する。
しかし、既存の推論に基づく生成関連モデル(GRMs)は、主に大量の人間アノテーションまたは合成CoTデータの教師付き微調整に依存しており、それがしばしば限定的な一般化につながる。
さらに、ドメインに依存しない自由形式の推論は、過度に汎用的で不十分な根拠を持つ傾向にあり、オープンドメイン検索でよく見られる多様で曖昧なケースを扱う可能性を制限する。
本研究では,Xiaohongshu 検索における関連性モデリングを推論タスクとして定式化し,強化学習(Reinforcement Learning, RL)に基づく学習フレームワークを導入して GRM の基底的推論能力を向上させる。
具体的には、実践的なビジネス固有の関連基準を多段階的推論の素早い設計に組み込んで、これらの基準の効果的な学習を容易にする軽量なプロセス・スーパービジョン戦略であるSAM(Stepwise Advantage Masking)を提案する。
産業展開を実現するため,大規模RL調整モデルを実世界の検索システムに適した軽量バージョンに蒸留する。
産業データセットに関する大規模な実験は、オンラインA/Bテストとともに、我々のアプローチの有効性を実証している。
関連論文リスト
- VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。
提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文 参考訳(メタデータ) (2025-10-19T16:46:11Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - The Thinking Spectrum: An Empirical Study of Tunable Reasoning in LLMs through Model Merging [8.930191971732649]
本稿では,複数の推論ベンチマークにまたがるモデルマージ手法について,大規模な実験的検討を行った。
その結果, モデルマージは, 推論精度とトークン効率のトレードオフを校正するための, 効果的かつ制御可能な手法であることがわかった。
本研究は、この調整可能な空間を包括的に解析し、特定の推論プロファイルを持つLCMを作成するための実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2025-09-26T08:12:13Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。
本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。
階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文 参考訳(メタデータ) (2025-05-23T07:30:13Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning [14.224921308101624]
本稿では,関係モデリングのための新しい分布認識ロバスト学習フレームワーク(DaRL)を提案する。
DaRLはAlipayの保険商品検索のためにオンラインで展開されている。
論文 参考訳(メタデータ) (2024-12-17T03:10:47Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。