論文の概要: Energy-Guided Diffusion Sampling for Long-Term User Behavior Prediction in Reinforcement Learning-based Recommendation
- arxiv url: http://arxiv.org/abs/2510.12815v1
- Date: Thu, 09 Oct 2025 06:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.320739
- Title: Energy-Guided Diffusion Sampling for Long-Term User Behavior Prediction in Reinforcement Learning-based Recommendation
- Title(参考訳): 強化学習に基づく勧告における長期ユーザ行動予測のためのエネルギー誘導拡散サンプリング
- Authors: Xiaocong Chen, Siyu Wang, Lina Yao,
- Abstract要約: 強化学習に基づく推薦システム(RL4RS)は,動的なユーザの嗜好に適応する能力に注目されている。
オフライン強化学習手法は、これらの問題に対処するために広範囲なデータセットを活用する。
本稿では、拡散過程と強化学習を統合する新しいフレームワークであるオフラインRL4RS(DAC4Rec)について述べる。
- 参考スコア(独自算出の注目度): 21.121675704860913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning-based recommender systems (RL4RS) have gained attention for their ability to adapt to dynamic user preferences. However, these systems face challenges, particularly in offline settings, where data inefficiency and reliance on pre-collected trajectories limit their broader applicability. While offline reinforcement learning methods leverage extensive datasets to address these issues, they often struggle with noisy data and fail to capture long-term user preferences, resulting in suboptimal recommendation policies. To overcome these limitations, we propose Diffusion-enhanced Actor-Critic for Offline RL4RS (DAC4Rec), a novel framework that integrates diffusion processes with reinforcement learning to model complex user preferences more effectively. DAC4Rec leverages the denoising capabilities of diffusion models to enhance the robustness of offline RL algorithms and incorporates a Q-value-guided policy optimization strategy to better handle suboptimal trajectories. Additionally, we introduce an energy-based sampling strategy to reduce randomness during recommendation generation, ensuring more targeted and reliable outcomes. We validate the effectiveness of DAC4Rec through extensive experiments on six real-world offline datasets and in an online simulation environment, demonstrating its ability to optimize long-term user preferences. Furthermore, we show that the proposed diffusion policy can be seamlessly integrated into other commonly used RL algorithms in RL4RS, highlighting its versatility and wide applicability.
- Abstract(参考訳): 強化学習に基づく推薦システム(RL4RS)は,動的なユーザの嗜好に適応する能力に注目されている。
しかし、これらのシステムは、特にオフライン環境では、データ非効率性と事前コンパイルされた軌道への依存が適用範囲を限定する課題に直面している。
オフラインの強化学習手法はこれらの問題に対処するために広範囲なデータセットを活用するが、ノイズの多いデータに悩まされ、長期的なユーザの好みを捉えられず、結果として準最適の推奨ポリシーがもたらされる。
これらの制約を克服するために,拡散処理と強化学習を統合し,複雑なユーザの嗜好をより効率的にモデル化する新しいフレームワークであるDiffusion-enhanced Actor-Critic for Offline RL4RS (DAC4Rec)を提案する。
DAC4Recは拡散モデルのデノナイズ機能を活用して、オフラインRLアルゴリズムの堅牢性を高め、Q値誘導ポリシー最適化戦略を取り入れて、最適軌道の処理を改善する。
さらに,推薦生成時のランダム性を低減し,より標的的かつ信頼性の高い結果を保証するためのエネルギーベースのサンプリング戦略を導入する。
6つの実世界のオフラインデータセットとオンラインシミュレーション環境において,DAC4Recの有効性を検証する。
さらに,提案手法をRL4RSの他の一般的なRLアルゴリズムにシームレスに統合し,その汎用性と適用性を強調した。
関連論文リスト
- Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Goal-Conditioned Data Augmentation for Offline Reinforcement Learning [9.181158786602085]
Goal-cOnditioned Data Augmentation (GODA) は、ゴール条件付き拡散法である。
GODAは、元のオフラインデータセットの包括的な分布表現を学習し、選択的に高いリターン目標を持つ新しいデータを生成する。
我々は,D4RLベンチマークと実世界の課題,特に交通信号制御(TSC)タスクについて実験を行い,GODAの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-29T16:42:30Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。