論文の概要: Deep Exploration for Recommendation Systems
- arxiv url: http://arxiv.org/abs/2109.12509v3
- Date: Wed, 19 Jul 2023 21:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 19:27:01.515150
- Title: Deep Exploration for Recommendation Systems
- Title(参考訳): 勧告システムのための深層探査
- Authors: Zheqing Zhu, Benjamin Van Roy
- Abstract要約: 我々はレコメンデーションシステムのための深層探査手法を開発した。
特に、逐次決定問題としてレコメンデーションを定式化する。
本実験は高忠実度産業用シミュレータを用いて行った。
- 参考スコア(独自算出の注目度): 14.937000494745861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern recommendation systems ought to benefit by probing for and learning
from delayed feedback. Research has tended to focus on learning from a user's
response to a single recommendation. Such work, which leverages methods of
supervised and bandit learning, forgoes learning from the user's subsequent
behavior. Where past work has aimed to learn from subsequent behavior, there
has been a lack of effective methods for probing to elicit informative delayed
feedback. Effective exploration through probing for delayed feedback becomes
particularly challenging when rewards are sparse. To address this, we develop
deep exploration methods for recommendation systems. In particular, we
formulate recommendation as a sequential decision problem and demonstrate
benefits of deep exploration over single-step exploration. Our experiments are
carried out with high-fidelity industrial-grade simulators and establish large
improvements over existing algorithms.
- Abstract(参考訳): 現代のレコメンデーションシステムは、遅れたフィードバックを探索し、学ぶことで恩恵を受けるべきです。
研究は、単一のレコメンデーションに対するユーザの反応から学ぶことに集中する傾向があります。
このような作業は、教師やバンディット学習の手法を活用し、ユーザのその後の行動から学ぶことを禁じている。
過去の研究がその後の行動から学ぶことを目指していたところでは、情報に遅れたフィードバックを導き出す効果的な方法が不足している。
フィードバックの遅れによる効果的な探索は、報酬が不足している場合に特に困難になる。
そこで我々は,レコメンデーションシステムのための深層探査手法を開発した。
特に,推薦を逐次的決定問題として定式化し,単段探索よりも深い探索の利点を示す。
本実験は,高忠実度産業用シミュレータを用いて実施し,既存のアルゴリズムに対する大幅な改善を図る。
関連論文リスト
- Breadcrumbs to the Goal: Goal-Conditioned Exploration from
Human-in-the-Loop Feedback [22.89046164459011]
非熟練者からの低品質フィードバックを利用するHuman Guided Exploration(HuGE)という手法を提案する。
HuGEは、シミュレーションだけでなく、実世界でも、厳密な報酬仕様なしで強化学習の探索をガイドしている。
論文 参考訳(メタデータ) (2023-07-20T17:30:37Z) - Towards Improving Exploration in Self-Imitation Learning using Intrinsic
Motivation [7.489793155793319]
強化学習(Reinforcement Learning)は、最適化タスクを効率的に解くための強力な代替手段として登場した。
これらのアルゴリズムの使用は、学習したエージェントが行う決定がどれほど良い(または悪い)かを知らせる環境の提供するフィードバック信号に大きく依存する。
この研究では、本質的な動機付けは、エージェントが好奇心に基づいて環境を探索することを奨励するのに対して、模倣学習は学習プロセスを加速するために最も有望な経験を繰り返すことができる。
論文 参考訳(メタデータ) (2022-11-30T09:18:59Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Real-Time Learning from An Expert in Deep Recommendation Systems with
Marginal Distance Probability Distribution [1.3535770763481902]
我々は,その履歴,プロファイル,および類似のユーザに基づいて,日々の運動活動を支援するレコメンデーションシステムを開発した。
開発したレコメンデーションシステムは、ユーザの注目と時間的注意機構を備えたディープリカレントニューラルネットワークを使用する。
本稿では,リアルタイム・エキスパート・ザ・ループ型能動的学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T19:20:18Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Knowledge Transfer via Pre-training for Recommendation: A Review and
Prospect [89.91745908462417]
実験による推薦システムに対する事前学習の利点を示す。
事前学習を伴うレコメンデータシステムの今後の研究に向けて,いくつかの将来的な方向性について論じる。
論文 参考訳(メタデータ) (2020-09-19T13:06:27Z) - A Survey on Knowledge Graph-Based Recommender Systems [65.50486149662564]
我々は知識グラフに基づく推薦システムの体系的な調査を行う。
論文は、知識グラフを正確かつ説明可能なレコメンデーションにどのように活用するかに焦点を当てる。
これらの作業で使用されるデータセットを紹介します。
論文 参考訳(メタデータ) (2020-02-28T02:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。