論文の概要: RL4RS: A Real-World Dataset for Reinforcement Learning based Recommender
System
- arxiv url: http://arxiv.org/abs/2110.11073v5
- Date: Mon, 17 Apr 2023 10:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 01:01:03.549341
- Title: RL4RS: A Real-World Dataset for Reinforcement Learning based Recommender
System
- Title(参考訳): RL4RS:強化学習に基づくレコメンダシステムのための実世界データセット
- Authors: Kai Wang, Zhene Zou, Minghao Zhao, Qilin Deng, Yue Shang, Yile Liang,
Runze Wu, Xudong Shen, Tangjie Lyu, Changjie Fan
- Abstract要約: 強化学習に基づく推薦システム (RL-based RS) は,収集したデータのバッチから適切なポリシーを学習することを目的としている。
現在のRLベースのRS研究は、一般的に大きな現実的ギャップがある。
人工データセットと半シミュレートされたRSデータセットを置き換えることを願っている、最初のオープンソースの実世界のデータセットであるRL4RSを紹介します。
- 参考スコア(独自算出の注目度): 26.097154801770245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning based recommender systems (RL-based RS) aim at
learning a good policy from a batch of collected data, by casting
recommendations to multi-step decision-making tasks. However, current RL-based
RS research commonly has a large reality gap. In this paper, we introduce the
first open-source real-world dataset, RL4RS, hoping to replace the artificial
datasets and semi-simulated RS datasets previous studies used due to the
resource limitation of the RL-based RS domain. Unlike academic RL research,
RL-based RS suffers from the difficulties of being well-validated before
deployment. We attempt to propose a new systematic evaluation framework,
including evaluation of environment simulation, evaluation on environments,
counterfactual policy evaluation, and evaluation on environments built from
test set. In summary, the RL4RS (Reinforcement Learning for Recommender
Systems), a new resource with special concerns on the reality gaps, contains
two real-world datasets, data understanding tools, tuned simulation
environments, related advanced RL baselines, batch RL baselines, and
counterfactual policy evaluation algorithms. The RL4RS suite can be found at
https://github.com/fuxiAIlab/RL4RS. In addition to the RL-based recommender
systems, we expect the resource to contribute to research in applied
reinforcement learning.
- Abstract(参考訳): 強化学習に基づく推薦システム(RL-based RS)は,多段階意思決定タスクにレコメンデーションを投入することで,収集したデータの集合から適切なポリシーを学習することを目的としている。
しかし、現在のRLベースのRS研究は一般的に大きな現実的ギャップがある。
本稿では,RLをベースとしたRSドメインのリソース制限により,これまで使用されていた人工データセットと半シミュレーションRSデータセットを置き換えることを期待する,最初のオープンソースの実世界のデータセットであるRL4RSを紹介する。
学術的なRL研究とは異なり、RLベースのRSは、デプロイ前によく検証されるという困難に悩まされている。
本研究では, 環境シミュレーションの評価, 環境評価, 対実的政策評価, テストセットから構築した環境評価を含む, 新たなシステム評価フレームワークを提案する。
要約すると、現実のギャップを特に懸念する新たなリソースであるRL4RS(Reinforcement Learning for Recommender Systems)には、2つの実世界のデータセット、データ理解ツール、チューニングされたシミュレーション環境、関連するRLベースライン、バッチRLベースライン、および対実的なポリシー評価アルゴリズムが含まれている。
RL4RSスイートはhttps://github.com/fuxiAIlab/RL4RSで見ることができる。
rlベースのレコメンダシステムに加えて,このリソースが応用強化学習の研究に寄与することを期待している。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - EasyRL4Rec: An Easy-to-use Library for Reinforcement Learning Based Recommender Systems [18.22130279210423]
我々は、RLベースのRS用に特別に設計された、使いやすいコードライブラリであるEasyRL4Recを紹介する。
このライブラリは5つのパブリックデータセットに基づいた軽量で多様なRL環境を提供する。
EasyRL4Recは、RLベースのRSのドメインにおけるモデル開発と実験プロセスの促進を目指している。
論文 参考訳(メタデータ) (2024-02-23T07:54:26Z) - B2RL: An open-source Dataset for Building Batch Reinforcement Learning [0.0]
バッチ強化学習(BRL)は、RLコミュニティにおける新興研究分野である。
BRL学習のために構築データセットをオープンソースにしたのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-09-30T17:54:42Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement
Learning [28.947071041811586]
オフライン強化学習は、インタラクションなしで大規模なデータセットからポリシーを学ぶことを提案する。
現在のアルゴリズムは、トレーニング対象のデータセットに過度に適合し、デプロイ時に環境への不適切な分散一般化を実行する。
本稿では,環境にデプロイした場合の一般化と補間に優れた値関数を学習するために,状態からのデータ拡張を利用する,驚くほど単純な自己スーパービジョンアルゴリズム(s4rl)を提案する。
論文 参考訳(メタデータ) (2021-03-10T20:13:21Z) - Near Real-World Benchmarks for Offline Reinforcement Learning [26.642722521820467]
本稿では,近世界のベンチマークであるNewRLについて紹介する。
NewRLには、ポリシー検証を目的とした、コントロールされたサイズと追加のテストデータセットを備えた、さまざまなドメインのデータセットが含まれている。
我々は、データセットの報酬の代わりに、ポリシーのパフォーマンスを行動ポリシーの決定論的バージョンと比較するべきだと論じる。
論文 参考訳(メタデータ) (2021-02-01T09:19:10Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。