論文の概要: Generative Inverse Deep Reinforcement Learning for Online Recommendation
- arxiv url: http://arxiv.org/abs/2011.02248v1
- Date: Wed, 4 Nov 2020 12:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:51:18.243798
- Title: Generative Inverse Deep Reinforcement Learning for Online Recommendation
- Title(参考訳): オンラインレコメンデーションのための生成的逆深層強化学習
- Authors: Xiaocong Chen and Lina Yao and Aixin Sun and Xianzhi Wang and Xiwei Xu
and Liming Zhu
- Abstract要約: オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
- 参考スコア(独自算出の注目度): 62.09946317831129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning enables an agent to capture user's interest
through interactions with the environment dynamically. It has attracted great
interest in the recommendation research. Deep reinforcement learning uses a
reward function to learn user's interest and to control the learning process.
However, most reward functions are manually designed; they are either
unrealistic or imprecise to reflect the high variety, dimensionality, and
non-linearity properties of the recommendation problem. That makes it difficult
for the agent to learn an optimal policy to generate the most satisfactory
recommendations. To address the above issue, we propose a novel generative
inverse reinforcement learning approach, namely InvRec, which extracts the
reward function from user's behaviors automatically, for online recommendation.
We conduct experiments on an online platform, VirtualTB, and compare with
several state-of-the-art methods to demonstrate the feasibility and
effectiveness of our proposed approach.
- Abstract(参考訳): 深層強化学習により,エージェントは環境とのインタラクションを通じてユーザの関心を動的に捉えることができる。
推薦研究に多大な関心を寄せている。
深い強化学習は、ユーザの興味を学習し、学習プロセスを制御するために報酬関数を使用する。
しかし、ほとんどの報酬関数は手動で設計されており、それらはレコメンデーション問題の高多様性、次元性、非線形性を反映する非現実的あるいは不正確である。
これにより、エージェントは最も満足のいくレコメンデーションを生成するのに最適なポリシーを学ぶことが困難になる。
上記の課題に対処するため,オンラインレコメンデーションのために,ユーザの行動から報酬関数を自動的に抽出する新しい逆強化学習手法InvRecを提案する。
オンラインプラットフォームvirtualtb上で実験を行い,提案手法の有効性と有効性を示すため,最先端手法との比較を行った。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Deep Exploration for Recommendation Systems [14.937000494745861]
我々はレコメンデーションシステムのための深層探査手法を開発した。
特に、逐次決定問題としてレコメンデーションを定式化する。
本実験は高忠実度産業用シミュレータを用いて行った。
論文 参考訳(メタデータ) (2021-09-26T06:54:26Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Interaction-Grounded Learning [24.472306647094253]
そこで我々は,学習者の目的が環境と対話することであり,その政策を最適化するために,根拠や明確な報酬を伴わない「インタラクション・グラウンド・ラーニング」を提案する。
そこで本研究では,ある自然な仮定を前提とした対話型学習環境において,学習者が潜在報酬を発見でき,対話を成功させるための政策を立案できることを示す。
論文 参考訳(メタデータ) (2021-06-09T08:13:29Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Knowledge-guided Deep Reinforcement Learning for Interactive
Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。
本稿では,知識指導型深層強化学習を提案する。
論文 参考訳(メタデータ) (2020-04-17T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。