論文の概要: Reward Balancing Revisited: Enhancing Offline Reinforcement Learning for Recommender Systems
- arxiv url: http://arxiv.org/abs/2506.22112v1
- Date: Fri, 27 Jun 2025 10:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.178477
- Title: Reward Balancing Revisited: Enhancing Offline Reinforcement Learning for Recommender Systems
- Title(参考訳): Reward Balancing Revisited: Recommenderシステムのためのオフライン強化学習の強化
- Authors: Wenzheng Shu, Yanxiang Zeng, Yongxiang Tang, Teng Sha, Ning Luo, Yanhua Cheng, Xialong Liu, Fan Zhou, Peng Jiang,
- Abstract要約: 本稿ではReallocated Reward for Recommender Systems (R3S)と呼ばれる革新的なオフラインRLフレームワークを提案する。
報酬予測における本質的な変動に対処するために本質的なモデルの不確実性を統合することにより、意思決定のための多様性を高め、よりインタラクティブなパラダイムと整合させる。
実験の結果,R3Sは世界モデルの精度を向上し,ユーザの不均一な嗜好を効率的に調和させることがわかった。
- 参考スコア(独自算出の注目度): 10.995830376373801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) has emerged as a prevalent and effective methodology for real-world recommender systems, enabling learning policies from historical data and capturing user preferences. In offline RL, reward shaping encounters significant challenges, with past efforts to incorporate prior strategies for uncertainty to improve world models or penalize underexplored state-action pairs. Despite these efforts, a critical gap remains: the simultaneous balancing of intrinsic biases in world models and the diversity of policy recommendations. To address this limitation, we present an innovative offline RL framework termed Reallocated Reward for Recommender Systems (R3S). By integrating inherent model uncertainty to tackle the intrinsic fluctuations in reward predictions, we boost diversity for decision-making to align with a more interactive paradigm, incorporating extra penalizers with decay that deter actions leading to diminished state variety at both local and global scales. The experimental results demonstrate that R3S improves the accuracy of world models and efficiently harmonizes the heterogeneous preferences of the users.
- Abstract(参考訳): オフライン強化学習 (RL) は, 実世界のレコメンデーションシステムにおいて, 歴史的データから学習ポリシーを学習し, ユーザの好みを把握し, 有効な方法論として登場してきた。
オフラインのRLでは、報酬形成は重大な課題に遭遇し、これまでの取り組みでは、世界モデルの改善や未調査の状態-行動ペアのペナルティ化のために、不確実性に関する事前の戦略を取り入れてきた。
これらの努力にもかかわらず、世界モデルにおける本質的バイアスの同時バランスと政策勧告の多様性という、重要なギャップが残っている。
この制限に対処するために、Reallocated Reward for Recommender Systems (R3S)と呼ばれる革新的なオフラインRLフレームワークを提案する。
報酬予測における本質的な変動に対処するために本質的なモデルの不確実性を統合することにより、よりインタラクティブなパラダイムと整合する意思決定の多様性を向上し、局所的およびグローバルなスケールで国家の多様性を低下させる作用を阻害する崩壊を伴う余分なペナライザーを組み込むことにより、よりインタラクティブなパラダイムと整合する。
実験の結果,R3Sは世界モデルの精度を向上し,ユーザの不均一な嗜好を効率的に調和させることがわかった。
関連論文リスト
- DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward [14.323631574821123]
モデルベースのオフライン強化学習は、レコメンデータシステムにとって有望なアプローチとして登場した。
DarLRは、レコメンデーションポリシーを強化するために、世界モデルを動的に更新することを提案する。
4つのベンチマークデータセットの実験は、DARLRの優れた性能を示している。
論文 参考訳(メタデータ) (2025-05-12T06:18:31Z) - ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems [14.74207332728742]
オフライン強化学習(RL)は,実世界のレコメンデーションシステムに有効なツールである。
本稿では,リコメンダシステムのためのオフライン強化学習における報酬と不確実性評価のためのモデルベースReward Shapingを提案する。
論文 参考訳(メタデータ) (2024-07-18T05:07:11Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。