論文の概要: DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward
- arxiv url: http://arxiv.org/abs/2505.07257v1
- Date: Mon, 12 May 2025 06:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.273557
- Title: DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward
- Title(参考訳): DARLR:動的リワードを伴うレコメンダシステムのためのデュアルエージェントオフライン強化学習
- Authors: Yi Zhang, Ruihong Qiu, Xuwei Xu, Jiajun Liu, Sen Wang,
- Abstract要約: モデルベースのオフライン強化学習は、レコメンデータシステムにとって有望なアプローチとして登場した。
DarLRは、レコメンデーションポリシーを強化するために、世界モデルを動的に更新することを提案する。
4つのベンチマークデータセットの実験は、DARLRの優れた性能を示している。
- 参考スコア(独自算出の注目度): 14.323631574821123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based offline reinforcement learning (RL) has emerged as a promising approach for recommender systems, enabling effective policy learning by interacting with frozen world models. However, the reward functions in these world models, trained on sparse offline logs, often suffer from inaccuracies. Specifically, existing methods face two major limitations in addressing this challenge: (1) deterministic use of reward functions as static look-up tables, which propagates inaccuracies during policy learning, and (2) static uncertainty designs that fail to effectively capture decision risks and mitigate the impact of these inaccuracies. In this work, a dual-agent framework, DARLR, is proposed to dynamically update world models to enhance recommendation policies. To achieve this, a \textbf{\textit{selector}} is introduced to identify reference users by balancing similarity and diversity so that the \textbf{\textit{recommender}} can aggregate information from these users and iteratively refine reward estimations for dynamic reward shaping. Further, the statistical features of the selected users guide the dynamic adaptation of an uncertainty penalty to better align with evolving recommendation requirements. Extensive experiments on four benchmark datasets demonstrate the superior performance of DARLR, validating its effectiveness. The code is available at https://github.com/ArronDZhang/DARLR.
- Abstract(参考訳): モデルベースオフライン強化学習(RL)は,凍結した世界モデルと対話して効果的な政策学習を可能にするレコメンデータシステムにおいて,有望なアプローチとして登場した。
しかし、これらの世界のモデルの報酬関数は、希少なオフラインログで訓練され、しばしば不正確さに悩まされる。
具体的には,1) 政策学習における不正確性を伝播する静的ルックアップテーブルとしての報酬関数の決定論的利用,2) 意思決定リスクを効果的に把握できず,不正確性の影響を緩和する静的不確実性設計である。
本研究では,世界モデルを動的に更新し,レコメンデーションポリシーを強化するために,デュアルエージェントフレームワークであるDARLRを提案する。
これを実現するために、類似性と多様性のバランスをとることで参照ユーザを識別するために、‘textbf{\textit{recommender}} がこれらのユーザから情報を収集し、動的報酬形成のための報酬推定を反復的に洗練できるように、‘textbf{\textit{selector}} ’ を導入している。
さらに、選択したユーザの統計的特徴は、不確実性ペナルティの動的適応をガイドし、進化するレコメンデーション要件に適合させる。
4つのベンチマークデータセットに対する大規模な実験は、DARLRの優れた性能を示し、その有効性を検証する。
コードはhttps://github.com/ArronDZhang/DARLRで公開されている。
関連論文リスト
- Reward Balancing Revisited: Enhancing Offline Reinforcement Learning for Recommender Systems [10.995830376373801]
本稿ではReallocated Reward for Recommender Systems (R3S)と呼ばれる革新的なオフラインRLフレームワークを提案する。
報酬予測における本質的な変動に対処するために本質的なモデルの不確実性を統合することにより、意思決定のための多様性を高め、よりインタラクティブなパラダイムと整合させる。
実験の結果,R3Sは世界モデルの精度を向上し,ユーザの不均一な嗜好を効率的に調和させることがわかった。
論文 参考訳(メタデータ) (2025-06-27T10:46:41Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - A Novel Generative Model with Causality Constraint for Mitigating Biases in Recommender Systems [20.672668625179526]
遅延共起バイアスは、ユーザのフィードバックとアイテムの露出の間の真の因果関係を曖昧にする可能性がある。
本稿では,Recommender Systemsにおける表現学習のための遅延因果制約(Latent Causality Constraints)と呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:09:39Z) - ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems [14.74207332728742]
オフライン強化学習(RL)は,実世界のレコメンデーションシステムに有効なツールである。
本稿では,リコメンダシステムのためのオフライン強化学習における報酬と不確実性評価のためのモデルベースReward Shapingを提案する。
論文 参考訳(メタデータ) (2024-07-18T05:07:11Z) - Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるための,新しい記号回帰手法を提案する。
DSRは最先端の手法であるDSRの成功にもかかわらず、リカレントニューラルネットワーク上に構築されており、純粋にデータ適合性によってガイドされている。
学習性能を向上させるために,トランスフォーマーとブロードスファーストサーチを併用した。
論文 参考訳(メタデータ) (2024-06-10T19:29:10Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。