論文の概要: RL4RS: A Real-World Benchmark for Reinforcement Learning based
Recommender System
- arxiv url: http://arxiv.org/abs/2110.11073v1
- Date: Mon, 18 Oct 2021 12:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 18:18:31.609835
- Title: RL4RS: A Real-World Benchmark for Reinforcement Learning based
Recommender System
- Title(参考訳): rl4rs:強化学習に基づくレコメンダシステムのための実世界ベンチマーク
- Authors: Kai Wang, Zhene Zou, Qilin Deng, Yue Shang, Minghao Zhao, Runze Wu,
Xudong Shen, Tangjie Lyu, Changjie Fan
- Abstract要約: 強化学習に基づく推薦システム (RL-based RS) は,複数の収集データから適切なポリシを学習することを目的として,複数ステップの意思決定タスクに逐次レコメンデーションを投入する。
現在のRLベースのRSベンチマークは、人工的なRLデータセットやセミシミュレートされたRSデータセットを含むため、一般的に大きな現実的なギャップがある。
本稿では,RL4RSベンチマーク(RL4RSベンチマーク)を紹介する。
- 参考スコア(独自算出の注目度): 17.81592510100228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning based recommender systems (RL-based RS) aims at
learning a good policy from a batch of collected data, with casting sequential
recommendation to multi-step decision-making tasks. However, current RL-based
RS benchmarks commonly have a large reality gap, because they involve
artificial RL datasets or semi-simulated RS datasets, and the trained policy is
directly evaluated in the simulation environment. In real-world situations, not
all recommendation problems are suitable to be transformed into reinforcement
learning problems. Unlike previous academic RL researches, RL-based RS suffer
from extrapolation error and the difficulties of being well validated before
deployment. In this paper, we introduce the RL4RS (Reinforcement Learning for
Recommender Systems) benchmark - a new resource fully collected from industrial
applications to train and evaluate RL algorithms with special concerns on the
above issues. It contains two datasets, tuned simulation environments, related
advanced RL baselines, data understanding tools, and counterfactual policy
evaluation algorithms. The RL4RS suit can be found at
https://github.com/fuxiAIlab/RL4RS. In addition to the RL-based recommender
systems, we expect the resource to contribute to research in reinforcement
learning and neural combinatorial optimization.
- Abstract(参考訳): 強化学習に基づく推薦システム (RL-based RS) は,複数の収集データから適切なポリシを学習することを目的として,複数ステップの意思決定タスクに逐次レコメンデーションを投入する。
しかしながら、現在のRLベースのRSベンチマークは、人工的なRLデータセットや半シミュレートされたRSデータセットを含むため、一般的に大きな現実的なギャップがあり、トレーニングされたポリシーはシミュレーション環境で直接評価される。
現実の状況では、すべての推奨問題が強化学習問題に変換されるのに適しているわけではない。
従来の学術的なRL研究とは異なり、RSは外挿誤差と展開前に十分な検証が難しい。
本稿では,rl4rs(reinforcement learning for recommender systems)ベンチマークについて紹介する。rlアルゴリズムを訓練し評価するために,産業アプリケーションから収集された新しいリソースである。
これには、2つのデータセット、チューニングされたシミュレーション環境、関連するRLベースライン、データ理解ツール、および対実的なポリシー評価アルゴリズムが含まれる。
RL4RSスーツはhttps://github.com/fuxiAIlab/RL4RSで見ることができる。
rlベースのレコメンダシステムに加えて,強化学習とニューラルコンビネート最適化の研究にリソースが寄与することを期待している。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - EasyRL4Rec: An Easy-to-use Library for Reinforcement Learning Based Recommender Systems [18.22130279210423]
我々は、RLベースのRS用に特別に設計された、使いやすいコードライブラリであるEasyRL4Recを紹介する。
このライブラリは5つのパブリックデータセットに基づいた軽量で多様なRL環境を提供する。
EasyRL4Recは、RLベースのRSのドメインにおけるモデル開発と実験プロセスの促進を目指している。
論文 参考訳(メタデータ) (2024-02-23T07:54:26Z) - B2RL: An open-source Dataset for Building Batch Reinforcement Learning [0.0]
バッチ強化学習(BRL)は、RLコミュニティにおける新興研究分野である。
BRL学習のために構築データセットをオープンソースにしたのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-09-30T17:54:42Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement
Learning [28.947071041811586]
オフライン強化学習は、インタラクションなしで大規模なデータセットからポリシーを学ぶことを提案する。
現在のアルゴリズムは、トレーニング対象のデータセットに過度に適合し、デプロイ時に環境への不適切な分散一般化を実行する。
本稿では,環境にデプロイした場合の一般化と補間に優れた値関数を学習するために,状態からのデータ拡張を利用する,驚くほど単純な自己スーパービジョンアルゴリズム(s4rl)を提案する。
論文 参考訳(メタデータ) (2021-03-10T20:13:21Z) - Near Real-World Benchmarks for Offline Reinforcement Learning [26.642722521820467]
本稿では,近世界のベンチマークであるNewRLについて紹介する。
NewRLには、ポリシー検証を目的とした、コントロールされたサイズと追加のテストデータセットを備えた、さまざまなドメインのデータセットが含まれている。
我々は、データセットの報酬の代わりに、ポリシーのパフォーマンスを行動ポリシーの決定論的バージョンと比較するべきだと論じる。
論文 参考訳(メタデータ) (2021-02-01T09:19:10Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。