論文の概要: A General Offline Reinforcement Learning Framework for Interactive
Recommendation
- arxiv url: http://arxiv.org/abs/2310.00678v1
- Date: Sun, 1 Oct 2023 14:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:38:28.084477
- Title: A General Offline Reinforcement Learning Framework for Interactive
Recommendation
- Title(参考訳): 対話型推薦のためのオフライン強化学習フレームワーク
- Authors: Teng Xiao, Donglin Wang
- Abstract要約: まず,対話型レコメンデーションのための確率的生成モデルを導入し,ログ化されたフィードバックに基づく離散的およびポリシー学習のための効果的な推論アルゴリズムを提案する。
提案手法が既存の教師付き学習法や強化学習法よりも優れた性能を期待できることを示す。
- 参考スコア(独自算出の注目度): 43.47849328010646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of learning interactive recommender systems
from logged feedbacks without any exploration in online environments. We
address the problem by proposing a general offline reinforcement learning
framework for recommendation, which enables maximizing cumulative user rewards
without online exploration. Specifically, we first introduce a probabilistic
generative model for interactive recommendation, and then propose an effective
inference algorithm for discrete and stochastic policy learning based on logged
feedbacks. In order to perform offline learning more effectively, we propose
five approaches to minimize the distribution mismatch between the logging
policy and recommendation policy: support constraints, supervised
regularization, policy constraints, dual constraints and reward extrapolation.
We conduct extensive experiments on two public real-world datasets,
demonstrating that the proposed methods can achieve superior performance over
existing supervised learning and reinforcement learning methods for
recommendation.
- Abstract(参考訳): 本稿では,オンライン環境を探索することなく,ログフィードバックからインタラクティブレコメンダシステムを学習することの問題点について検討する。
オンライン探索なしで累積ユーザ報酬を最大化できる一般的なオフライン強化学習フレームワークを提案することで、この問題に対処する。
具体的には,まず,対話型推薦のための確率的生成モデルを導入し,ログ付きフィードバックに基づく離散的・確率的政策学習のための効果的な推論アルゴリズムを提案する。
オフライン学習をより効果的に行うために,ログポリシとレコメンデーションポリシの分散ミスマッチを最小限に抑えるための5つのアプローチを提案する。
提案手法が既存の教師付き学習や強化学習手法よりも優れた性能が得られることを実証し,2つの実世界のデータセットについて広範な実験を行った。
関連論文リスト
- Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - AdaptiveRec: Adaptively Construct Pairs for Contrastive Learning in
Sequential Recommendation [0.7883397954991659]
本稿では,逐次レコメンデーションシステムにおいて,コントラスト学習が直面する課題に対する解決策を提案する。
これは偽陰性の問題に対処し、レコメンデーションアルゴリズムの有効性を制限する。
論文 参考訳(メタデータ) (2023-07-07T06:48:58Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z) - Adversarial Counterfactual Learning and Evaluation for Recommender
System [33.44276155380476]
ユーザ嗜好を検出するために教師付き学習を適用することは、露出情報がない場合に矛盾する結果になる可能性があることを理論的に示す。
ミニマックス経験的リスクの定式化を導入することにより, 基本解を提案する。
論文 参考訳(メタデータ) (2020-11-08T00:40:51Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。