論文の概要: Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation
- arxiv url: http://arxiv.org/abs/2602.10430v1
- Date: Wed, 11 Feb 2026 02:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.386295
- Title: Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation
- Title(参考訳): 反発の曲線を破る:オフ・ポリティクス・ジェネレーティブ・レコメンデーションのための最適分布ロバスト・ポリシー最適化
- Authors: Jie Jiang, Yusen Huo, Xiangxin Zhan, Changping Wang, Jun Zhang,
- Abstract要約: この解決策は、ノイズの多い行動方針に絡み合った潜伏した高品質な分布を厳格に特定することにあると我々は主張する。
このDRO目標に対してハードフィルタが正確な解であることを証明するため,DRPOは発散雑音を厳密に排除しつつ,高品質な動作を最適に回復することができる。
- 参考スコア(独自算出の注目度): 8.112649652437705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-based Reinforcement Learning (RL) has established itself as the dominant paradigm in generative recommendation for optimizing sequential user interactions. However, when applied to offline historical logs, these methods suffer a critical failure: the dominance of low-quality data induces severe model collapse. We first establish the Divergence Theory of Repulsive Optimization, revealing that negative gradient updates inherently trigger exponential intensity explosion during off-policy training. This theory elucidates the inherent dilemma of existing methods, exposing their inability to reconcile variance reduction and noise imitation. To break this curse, we argue that the solution lies in rigorously identifying the latent high-quality distribution entangled within the noisy behavior policy. Accordingly, we reformulate the objective as an Optimistic Distributionally Robust Optimization (DRO) problem. Guided by this formulation, we propose Distributionally Robust Policy Optimization (DRPO). We prove that hard filtering is the exact solution to this DRO objective, enabling DRPO to optimally recover high-quality behaviors while strictly discarding divergence-inducing noise. Extensive experiments demonstrate that DRPO achieves state-of-the-art performance on mixed-quality recommendation benchmarks.
- Abstract(参考訳): 政策に基づく強化学習(RL)は、逐次的ユーザインタラクションを最適化するためのジェネレーティブレコメンデーションにおいて、自らを支配的なパラダイムとして確立している。
しかし、オフラインの履歴ログに適用した場合、これらの手法は致命的な失敗を被る。
まず、抑圧最適化の分散理論を確立し、負の勾配更新が本質的には、非政治的訓練中に指数的な強度爆発を引き起こすことを明らかにした。
この理論は既存の手法の固有のジレンマを解明し、分散の低減とノイズの模倣を再現できないことを示した。
この呪いを解くために、我々は、この解決策はノイズの行動ポリシーに絡み合った潜伏した高品質な分布を厳格に特定することにあると論じる。
そこで我々は,目的を最適分布ロバスト最適化(DRO)問題として再定式化する。
この定式化によって導かれた配電ロバストポリシ最適化(DRPO)を提案する。
このDRO目標に対してハードフィルタが正確な解であることを証明するため,DRPOは発散雑音を厳密に排除しつつ,高品質な動作を最適に回復することができる。
総合的な実験により、DRPOは混合品質レコメンデーションベンチマークで最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。