論文の概要: Reinforcement Learning with a Disentangled Universal Value Function for
Item Recommendation
- arxiv url: http://arxiv.org/abs/2104.02981v1
- Date: Wed, 7 Apr 2021 08:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:41:33.170542
- Title: Reinforcement Learning with a Disentangled Universal Value Function for
Item Recommendation
- Title(参考訳): アイテムレコメンデーションのための異方性ユニバーサル値関数を用いた強化学習
- Authors: Kai Wang, Zhene Zou, Qilin Deng, Runze Wu, Jianrong Tao, Changjie Fan,
Liang Chen, Peng Cui
- Abstract要約: 我々は、goalrecと呼ばれる不連続な普遍値関数を持つモデルベース強化学習フレームワークを開発した。
本稿では,一連のシミュレーションと実応用の3つの実践的課題の観点から,従来のアプローチよりもGoalRecの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 35.79993074465577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there are great interests as well as challenges in applying
reinforcement learning (RL) to recommendation systems (RS). In this paper, we
summarize three key practical challenges of large-scale RL-based recommender
systems: massive state and action spaces, high-variance environment, and the
unspecific reward setting in recommendation. All these problems remain largely
unexplored in the existing literature and make the application of RL
challenging. We develop a model-based reinforcement learning framework with a
disentangled universal value function, called GoalRec. Combining the ideas of
world model (model-based), value function estimation (model-free), and
goal-based RL, a novel model-based value function formalization is proposed. It
can generalize to various goals that the recommender may have, and disentangle
the stochastic environmental dynamics and high-variance reward signals
accordingly. As a part of the value function, free from the sparse and
high-variance reward signals, a high-capacity reward-irrelevant world model is
trained to simulate complex environmental dynamics under a certain goal. Based
on the predicted environmental dynamics, the disentangled universal value
function is related to the user's future trajectory instead of a monolithic
state and a scalar reward. We demonstrate the superiority of GoalRec over
previous approaches in terms of the above three practical challenges in a
series of simulations and a real application.
- Abstract(参考訳): 近年,レコメンデーションシステム(RS)に強化学習(RL)を適用する上で,大きな関心を集めている。
本稿では,大規模RLベースのリコメンデータシステムにおいて,大規模状態と行動空間,高分散環境,不特定報酬設定の3つの重要な課題を要約する。
これらの問題は既存の文献では未解明のままであり、RLの適用は困難である。
我々は、goalrecと呼ばれる不連続な普遍値関数を持つモデルベース強化学習フレームワークを開発した。
世界モデル(モデルベース)、値関数推定(モデルフリー)、ゴールベースRLのアイデアを組み合わせて、新しいモデルベース値関数の定式化を提案する。
推薦者が持つ様々な目標を一般化し、それに応じて確率的環境力学と高分散報酬信号を解き放つことができる。
スパース信号と高分散報酬信号から解放された値関数の一部として、高容量の報酬非関連世界モデルを用いて、特定の目標の下で複雑な環境力学をシミュレートする。
予測された環境力学に基づいて、不連続な普遍値関数は、モノリシックな状態とスカラー報酬ではなく、ユーザの将来の軌道に関係している。
本稿では,一連のシミュレーションと実応用の3つの実践的課題の観点から,従来のアプローチよりもGoalRecの方が優れていることを示す。
関連論文リスト
- Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Goal-conditioned Offline Planning from Curious Exploration [28.953718733443143]
本研究では,教師なし探索技術の産物から目標条件付き行動を抽出することの課題について考察する。
従来の目標条件強化学習手法では,この困難なオフライン環境では,値関数とポリシの抽出が不十分であることがわかった。
そこで本研究では,学習した値のランドスケープに対するモデルベース計画と,グラフベースの値アグリゲーション手法を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-11-28T17:48:18Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Imaginary Hindsight Experience Replay: Curious Model-based Learning for
Sparse Reward Tasks [9.078290260836706]
複雑な報酬工学の必要性を先導するスパース・リワードタスクに適したモデルベース手法を提案する。
このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。
評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均的なデータ効率が桁違いに向上する。
論文 参考訳(メタデータ) (2021-10-05T23:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。