論文の概要: Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF
- arxiv url: http://arxiv.org/abs/2603.10279v1
- Date: Tue, 10 Mar 2026 23:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.722327
- Title: Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF
- Title(参考訳): ジェネレーションレコメンダのロバストポストトレーニング:なぜ指数リワード重み付きSFTがRLHFより優れているのか
- Authors: Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya,
- Abstract要約: 既存のトレーニングメソッドは、ノイズの多いユーザフィードバックと信頼できない報酬モデルによるハックを報いる。
指数的報酬重み付き SFT の重みが $w = exp(r/)$ であることは、この設定に一意に適している。
我々は、この設定に対する最初の政策改善保証を、騒々しい報奨のもとに証明する。
- 参考スコア(独自算出の注目度): 7.2858507889096815
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Aligning generative recommender systems to user preferences via post-training is critical for closing the gap between next-item prediction and actual recommendation quality. Existing post-training methods are ill-suited for production-scale systems: RLHF methods reward hack due to noisy user feedback and unreliable reward models, offline RL alternatives require propensity scores that are unavailable, and online interaction is infeasible. We identify exponential reward-weighted SFT with weights $w = \exp(r/λ)$ as uniquely suited to this setting, and provide the theoretical and empirical foundations that explain why. By optimizing directly on observed rewards without querying a learned reward model, the method is immune to reward hacking, requires no propensity scores, and is fully offline. We prove the first policy improvement guarantees for this setting under noisy rewards, showing that the gap scales only logarithmically with catalog size and remains informative even for large item catalogs. Crucially, we show that temperature $λ$ explicitly and quantifiably controls the robustness-improvement tradeoff, providing practitioners with a single interpretable regularization hyperparameter with theoretical grounding. Experiments on three open-source and one proprietary dataset against four baselines confirm that exponential reward weighting is simple, scalable, and consistently outperforms RLHF-based alternatives.
- Abstract(参考訳): 次点予測と実際のレコメンデーション品質のギャップを埋めるためには、ポストトレーニングによるユーザ好みに生成レコメンデーションシステムを調整することが重要である。
RLHFメソッドは、ノイズの多いユーザフィードバックと信頼できない報酬モデルによるハック、オフラインのRL代替手段は、利用できない確率スコアを必要とし、オンラインインタラクションは実現不可能である。
指数的報酬重み付き SFT の重みが $w = \exp(r/λ)$ であることは、この設定に一意に適しており、その理由を説明する理論的および経験的基礎を提供する。
学習した報酬モデルに問い合わせることなく、観察された報酬を直接最適化することにより、この手法は、報酬のハッキングに無害であり、正当性スコアを必要とせず、完全にオフラインである。
本研究は,この設定に対する最初の政策改善保証をうるさい報奨のもとに証明し,そのギャップはカタログのサイズと対数的にしかスケールせず,大型品のカタログにおいても情報的のままであることを示す。
重要なことは、温度がλ$を明示的に、定量的にロバスト性改善のトレードオフを制御し、理論的な基底を持つ単一の解釈可能な正規化ハイパーパラメータを実践者に提供することである。
3つのオープンソースと4つのベースラインに対する1つのプロプライエタリデータセットの実験により、指数的な報酬重み付けは単純でスケーラブルであり、RLHFベースの代替よりも一貫して優れていることが確認された。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - REINFORCE++: Stabilizing Critic-Free Policy Optimization with Global Advantage Normalization [15.329281344012117]
REINFORCE++は、textbfGlobal Advantage Normalizationを中心にした、批判のないフレームワークである。
本稿では、汎用ドメインRLHFのアルゴリズムであるREINFORCE++と、複雑な推論タスクのための堅牢なグループサンプリングのREINFORCE++/wベースラインの2つのバリエーションを紹介する。
論文 参考訳(メタデータ) (2025-01-04T02:08:06Z) - In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。
DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。
また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。