論文の概要: Deep Exploration for Recommendation Systems
- arxiv url: http://arxiv.org/abs/2109.12509v1
- Date: Sun, 26 Sep 2021 06:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:45:40.034821
- Title: Deep Exploration for Recommendation Systems
- Title(参考訳): 勧告システムのための深層探査
- Authors: Zheqing Zhu, Benjamin Van Roy
- Abstract要約: スパースフィードバックや遅延フィードバックから効率的に学習できるレコメンデーションシステムの設計について検討する。
ディープ・エクスプロレーションはこのような文脈において重要な役割を果たす可能性があり、レコメンデーションシステムはユーザーのニーズをより迅速に評価し、サービスをパーソナライズすることができる。
- 参考スコア(独自算出の注目度): 17.55063111003275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the design of recommendation systems that can efficiently
learn from sparse and delayed feedback. Deep Exploration can play an important
role in such contexts, enabling a recommendation system to much more quickly
assess a user's needs and personalize service. We design an algorithm based on
Thompson Sampling that carries out Deep Exploration. We demonstrate through
simulations that the algorithm can substantially amplify the rate of positive
feedback relative to common recommendation system designs in a scalable
fashion. These results demonstrate promise that we hope will inspire
engineering of production recommendation systems that leverage Deep
Exploration.
- Abstract(参考訳): スパースフィードバックや遅延フィードバックから効率的に学習できるレコメンデーションシステムの設計について検討する。
深層探査は、このようなコンテキストにおいて重要な役割を果たす可能性があるため、レコメンデーションシステムは、ユーザのニーズをより迅速に評価し、サービスをパーソナライズすることができる。
我々は、ディープ探索を行うトンプソンサンプリングに基づくアルゴリズムを設計する。
シミュレーションにより,提案アルゴリズムは,一般的なレコメンデーションシステム設計に対する肯定的なフィードバック率を大幅に向上させることができることを示す。
これらの結果は、深層探査を活用したプロダクションレコメンデーションシステムのエンジニアリングを刺激することを期待している。
関連論文リスト
- Breadcrumbs to the Goal: Goal-Conditioned Exploration from
Human-in-the-Loop Feedback [22.89046164459011]
非熟練者からの低品質フィードバックを利用するHuman Guided Exploration(HuGE)という手法を提案する。
HuGEは、シミュレーションだけでなく、実世界でも、厳密な報酬仕様なしで強化学習の探索をガイドしている。
論文 参考訳(メタデータ) (2023-07-20T17:30:37Z) - Towards Improving Exploration in Self-Imitation Learning using Intrinsic
Motivation [7.489793155793319]
強化学習(Reinforcement Learning)は、最適化タスクを効率的に解くための強力な代替手段として登場した。
これらのアルゴリズムの使用は、学習したエージェントが行う決定がどれほど良い(または悪い)かを知らせる環境の提供するフィードバック信号に大きく依存する。
この研究では、本質的な動機付けは、エージェントが好奇心に基づいて環境を探索することを奨励するのに対して、模倣学習は学習プロセスを加速するために最も有望な経験を繰り返すことができる。
論文 参考訳(メタデータ) (2022-11-30T09:18:59Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Real-Time Learning from An Expert in Deep Recommendation Systems with
Marginal Distance Probability Distribution [1.3535770763481902]
我々は,その履歴,プロファイル,および類似のユーザに基づいて,日々の運動活動を支援するレコメンデーションシステムを開発した。
開発したレコメンデーションシステムは、ユーザの注目と時間的注意機構を備えたディープリカレントニューラルネットワークを使用する。
本稿では,リアルタイム・エキスパート・ザ・ループ型能動的学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T19:20:18Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Knowledge Transfer via Pre-training for Recommendation: A Review and
Prospect [89.91745908462417]
実験による推薦システムに対する事前学習の利点を示す。
事前学習を伴うレコメンデータシステムの今後の研究に向けて,いくつかの将来的な方向性について論じる。
論文 参考訳(メタデータ) (2020-09-19T13:06:27Z) - A Survey on Knowledge Graph-Based Recommender Systems [65.50486149662564]
我々は知識グラフに基づく推薦システムの体系的な調査を行う。
論文は、知識グラフを正確かつ説明可能なレコメンデーションにどのように活用するかに焦点を当てる。
これらの作業で使用されるデータセットを紹介します。
論文 参考訳(メタデータ) (2020-02-28T02:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。