論文の概要: ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation
- arxiv url: http://arxiv.org/abs/2604.22169v1
- Date: Fri, 24 Apr 2026 02:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.316139
- Title: ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation
- Title(参考訳): ReCast: ジェネレーションレコメンデーションにおける強化学習のための学習信号のリキャスト
- Authors: Peiyan Zhang, Hanmo Liu, Chengxuan Tong, Yuxia Wu, Wei Guo, Yong Liu,
- Abstract要約: 本稿では,ReCastを提案する。
ReCastは全ゼログループに対して最小限の学習性を復元することを示す。
また、ReCastは永続的なオールゼロ/シングルヒット体制を緩和します。
- 参考スコア(独自算出の注目度): 18.825912740441858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic group-based RL assumes that sampled rollout groups are already usable learning signals. We show that this assumption breaks down in sparse-hit generative recommendation, where many sampled groups never become learnable at all. We propose ReCast, a repair-then-contrast learning-signal framework that first restores minimal learnability for all-zero groups and then replaces full-group reward normalization with a boundary-focused contrastive update on the strongest positive and the hardest negative. ReCast leaves the outer RL framework unchanged, modifies only within-group signal construction, and partially decouples rollout search width from actor-side update width. Across multiple generative recommendation tasks, ReCast consistently outperforms OpenOneRec-RL, achieving up to 36.6% relative improvement in Pass@1. Its matched-budget advantage is substantially larger: ReCast reaches the baseline's target performance with only 4.1% of the rollout budget, and this advantage widens with model scale. The same design also yields direct system-level gains, reducing actor-side update time by 16.60x, lowering peak allocated memory by 16.5%, and improving actor MFU by 14.2%. Mechanism analysis shows that ReCast mitigates the persistent all-zero / single-hit regime, restores learnability when natural positives are scarce, and converts otherwise wasted rollout budget into more stable policy updates. These results suggest that, for generative recommendation, the decisive RL problem is not only how to assign rewards, but how to construct learnable optimization events from sparse, structured supervision.
- Abstract(参考訳): ジェネリックグループベースのRLは、サンプルロールアウトグループが既に利用可能な学習信号であると仮定する。
この仮定はスパース・ヒット・ジェネレーティブ・レコメンデーション(sparse-hit generative recommendation)において破られ、多くのサンプル群が全く学べなくなることが示される。
ReCastは,全ゼロ群に対して最小限の学習性を復元し,最大かつ最強な正と最強の負の差分中心のコントラスト更新により,全グループ報酬正規化を置き換える,修復段階の学習信号処理フレームワークである。
ReCastは外部のRLフレームワークをそのまま残し、グループ内の信号構成だけを変更し、ロールアウトの幅をアクター側の更新幅から部分的に切り離す。
複数のジェネレーティブレコメンデーションタスクの中で、ReCastはOpenOneRec-RLを一貫して上回り、Pass@1の36.6%の改善を達成している。
ReCastはロールアウト予算のわずか4.1%でベースラインの目標性能に到達し、この利点はモデルスケールで拡大する。
同じ設計では、直接システムレベルのゲインが得られ、アクター側の更新時間を16.60倍にし、ピーク割り当てメモリを16.5%減らし、アクターMFUを14.2%改善した。
メカニズム分析により、ReCastは永続的なオールゼロ/シングルヒット体制を緩和し、自然陽性が不足している場合の学習性を回復し、それ以外の時間の無駄なロールアウト予算をより安定したポリシー更新に変換する。
これらの結果は、生成的レコメンデーションにおいて、決定的なRL問題は、報酬を割り当てるだけでなく、スパースで構造化された監督から学習可能な最適化イベントを構築する方法であることを示している。
関連論文リスト
- Off-Policy Value-Based Reinforcement Learning for Large Language Models [25.962820072445222]
ReValはベルマン更新に基づく手法で、内部の一貫性を捉える段階的な信号と、結果検証から導出される軌道レベルの信号を組み合わせる。
DeepSeek-R1-Distill-1.5Bでは、ReValはトレーニング効率を改善し、AIME24の2.7%、GRPOのGPQAの4.5%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-24T15:55:02Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - $\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving [75.29519604607111]
検証可能な報奨(RLVR)による強化学習は、大規模言語モデル(LLM)の推論性能を高めることを約束している。
チェーン・オブ・シークレット(CoT)の初期方向や品質が最適以下である場合、モデルが正しい答えに到達できないことがよく示される。
再解決による強化学習 (Reinforcement Learning with Re-solving, Re$2$) を導入し, LLM が非生産的推論経路を柔軟に放棄し,必要ならば解法を再開することを学ぶ。
論文 参考訳(メタデータ) (2026-03-07T13:17:46Z) - Train Less, Learn More: Adaptive Efficient Rollout Optimization for Group-Based Reinforcement Learning [37.10958874118462]
強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて中心的な役割を果たす。
GRPO では、各クエリは LLM に、固定されたグループサイズ$N$のロールアウトのグループを生成するように促す。
グループ内のすべてのロールアウトが同じ結果を共有するとき、すべての正しいか不正確な場合、群正規化の利点はゼロとなる。
本稿では GRPO の強化である AERO (Adaptive Efficient Rollout Optimization) を導入する。
論文 参考訳(メタデータ) (2026-02-15T23:14:05Z) - From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-30T15:07:06Z) - Reinforced Preference Optimization for Recommendation [28.87206911186567]
本稿では,レコメンデーションのためのReinforced Preference Optimization for Recommendation (ReRe)を提案する。
ReReは制約ビーム探索を取り入れてサンプリング効率を改善し、ハードネガを多様化する。
ReRe は従来型と LLM ベースのレコメンデータのランク付け性能を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-14T07:04:33Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。