論文の概要: Generative Reasoning Re-ranker
- arxiv url: http://arxiv.org/abs/2602.07774v2
- Date: Tue, 10 Feb 2026 07:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:43.024491
- Title: Generative Reasoning Re-ranker
- Title(参考訳): Generative Reasoning Re-ranker
- Authors: Mingfu Liang, Yufei Li, Jay Xu, Kavosh Asadi, Xi Liu, Shuo Gu, Kaushik Rangadurai, Frank Shyu, Shuaiwen Wang, Song Yang, Zhijing Li, Jiang Liu, Mengying Sun, Fei Tian, Xiaohan Wei, Chonglin Sun, Jacob Tao, Shike Mei, Hamed Firooz, Wenlin Chen, Luke Simon,
- Abstract要約: Generative Reasoning Reranker (GR2)は3段階のトレーニングパイプラインを備えたエンドツーエンドのフレームワークである。
GR2は、慎重に設計されたプロンプトとリジェクションサンプリングにより高品質な推論トレースを生成する。
2つの実世界のデータセットの実験では、GR2の有効性が示されている。
- 参考スコア(独自算出の注目度): 24.386586034456673
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies increasingly explore Large Language Models (LLMs) as a new paradigm for recommendation systems due to their scalability and world knowledge. However, existing work has three key limitations: (1) most efforts focus on retrieval and ranking, while the reranking phase, critical for refining final recommendations, is largely overlooked; (2) LLMs are typically used in zero-shot or supervised fine-tuning settings, leaving their reasoning abilities, especially those enhanced through reinforcement learning (RL) and high-quality reasoning data, underexploited; (3) items are commonly represented by non-semantic IDs, creating major scalability challenges in industrial systems with billions of identifiers. To address these gaps, we propose the Generative Reasoning Reranker (GR2), an end-to-end framework with a three-stage training pipeline tailored for reranking. First, a pretrained LLM is mid-trained on semantic IDs encoded from non-semantic IDs via a tokenizer achieving $\ge$99% uniqueness. Next, a stronger larger-scale LLM generates high-quality reasoning traces through carefully designed prompting and rejection sampling, which are used for supervised fine-tuning to impart foundational reasoning skills. Finally, we apply Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO), enabling scalable RL supervision with verifiable rewards designed specifically for reranking. Experiments on two real-world datasets demonstrate GR2's effectiveness: it surpasses the state-of-the-art OneRec-Think by 2.4% in Recall@5 and 1.3% in NDCG@5. Ablations confirm that advanced reasoning traces yield substantial gains across metrics. We further find that RL reward design is crucial in reranking: LLMs tend to exploit reward hacking by preserving item order, motivating conditional verifiable rewards to mitigate this behavior and optimize reranking performance.
- Abstract(参考訳): 近年,Large Language Models (LLMs) を,拡張性や世界的知識によるレコメンデーションシステムの新たなパラダイムとして探求している。
しかし, 現状の作業は, 検索とランク付けに重点を置いているのに対して, 最終勧告を精査する上で重要な更新段階は概ね見過ごされている, 2) LLMは, ゼロショットや教師付き微調整設定で一般的に用いられ, 推論能力, 特に強化学習(RL) と高品質推論データによって強化されているもの, (3) アイテムは一般に非意味IDで表現され, 数十億の識別子を持つ産業システムにおいて大きなスケーラビリティ上の課題が生じる, という3つの重要な制限がある。
このようなギャップに対処するため,我々は,3段階のトレーニングパイプラインを備えたエンドツーエンドフレームワークであるGenerative Reasoning Reranker (GR2)を提案する。
まず、事前訓練されたLLMは、トークン化器を介して非意味的IDから符号化されたセマンティックIDに基づいて、$$$ge$99%のユニーク性を達成する。
次に,より大規模なLCMでは,基礎的推論スキルを付与するために,教師付き微調整に使用されるプロンプト・リジェクションサンプリングを慎重に設計し,高品質な推論トレースを生成する。
最後に、Decoupled Clip と Dynamic sAmpling Policy Optimization (DAPO)を適用し、拡張性のある RL の監督を可能にする。
Recall@5では2.4%、NDCG@5では1.3%、最先端のOneRec-Thinkでは2.4%を超えている。
アブレーションは、高度な推論トレースがメトリクス間でかなりの利益をもたらすことを確認します。
LLMはアイテムの順序を保ち、条件付き検証可能な報酬を動機付け、この挙動を緩和し、性能を再評価する。
関連論文リスト
- Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation [37.47571308389908]
Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) の精度を効果的に向上させる
それまでの手法では、明確な思考なしに証拠を直接抽出し、重要な手がかりをフィルタリングし、一般化に苦慮する危険性がある。
本稿では,(1)検索内容中の潜在的手がかりを明示的に推論し,(2)質問に答えるのに有用なキー手がかりを省略しないよう意識的に抽出することによる合理的証拠の抽出を学習するEvi Omniを提案する。
論文 参考訳(メタデータ) (2025-07-21T13:03:55Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。