論文の概要: DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward
- arxiv url: http://arxiv.org/abs/2505.07257v1
- Date: Mon, 12 May 2025 06:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.273557
- Title: DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward
- Title(参考訳): DARLR:動的リワードを伴うレコメンダシステムのためのデュアルエージェントオフライン強化学習
- Authors: Yi Zhang, Ruihong Qiu, Xuwei Xu, Jiajun Liu, Sen Wang,
- Abstract要約: モデルベースのオフライン強化学習は、レコメンデータシステムにとって有望なアプローチとして登場した。
DarLRは、レコメンデーションポリシーを強化するために、世界モデルを動的に更新することを提案する。
4つのベンチマークデータセットの実験は、DARLRの優れた性能を示している。
- 参考スコア(独自算出の注目度): 14.323631574821123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based offline reinforcement learning (RL) has emerged as a promising approach for recommender systems, enabling effective policy learning by interacting with frozen world models. However, the reward functions in these world models, trained on sparse offline logs, often suffer from inaccuracies. Specifically, existing methods face two major limitations in addressing this challenge: (1) deterministic use of reward functions as static look-up tables, which propagates inaccuracies during policy learning, and (2) static uncertainty designs that fail to effectively capture decision risks and mitigate the impact of these inaccuracies. In this work, a dual-agent framework, DARLR, is proposed to dynamically update world models to enhance recommendation policies. To achieve this, a \textbf{\textit{selector}} is introduced to identify reference users by balancing similarity and diversity so that the \textbf{\textit{recommender}} can aggregate information from these users and iteratively refine reward estimations for dynamic reward shaping. Further, the statistical features of the selected users guide the dynamic adaptation of an uncertainty penalty to better align with evolving recommendation requirements. Extensive experiments on four benchmark datasets demonstrate the superior performance of DARLR, validating its effectiveness. The code is available at https://github.com/ArronDZhang/DARLR.
- Abstract(参考訳): モデルベースオフライン強化学習(RL)は,凍結した世界モデルと対話して効果的な政策学習を可能にするレコメンデータシステムにおいて,有望なアプローチとして登場した。
しかし、これらの世界のモデルの報酬関数は、希少なオフラインログで訓練され、しばしば不正確さに悩まされる。
具体的には,1) 政策学習における不正確性を伝播する静的ルックアップテーブルとしての報酬関数の決定論的利用,2) 意思決定リスクを効果的に把握できず,不正確性の影響を緩和する静的不確実性設計である。
本研究では,世界モデルを動的に更新し,レコメンデーションポリシーを強化するために,デュアルエージェントフレームワークであるDARLRを提案する。
これを実現するために、類似性と多様性のバランスをとることで参照ユーザを識別するために、‘textbf{\textit{recommender}} がこれらのユーザから情報を収集し、動的報酬形成のための報酬推定を反復的に洗練できるように、‘textbf{\textit{selector}} ’ を導入している。
さらに、選択したユーザの統計的特徴は、不確実性ペナルティの動的適応をガイドし、進化するレコメンデーション要件に適合させる。
4つのベンチマークデータセットに対する大規模な実験は、DARLRの優れた性能を示し、その有効性を検証する。
コードはhttps://github.com/ArronDZhang/DARLRで公開されている。
関連論文リスト
- ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems [14.74207332728742]
オフライン強化学習(RL)は,実世界のレコメンデーションシステムに有効なツールである。
本稿では,リコメンダシステムのためのオフライン強化学習における報酬と不確実性評価のためのモデルベースReward Shapingを提案する。
論文 参考訳(メタデータ) (2024-07-18T05:07:11Z) - Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるための,新しい記号回帰手法を提案する。
DSRは最先端の手法であるDSRの成功にもかかわらず、リカレントニューラルネットワーク上に構築されており、純粋にデータ適合性によってガイドされている。
学習性能を向上させるために,トランスフォーマーとブロードスファーストサーチを併用した。
論文 参考訳(メタデータ) (2024-06-10T19:29:10Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。