論文の概要: Monte Carlo Rollout Policy for Recommendation Systems with Dynamic User
Behavior
- arxiv url: http://arxiv.org/abs/2102.04321v1
- Date: Mon, 8 Feb 2021 16:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:14:59.572521
- Title: Monte Carlo Rollout Policy for Recommendation Systems with Dynamic User
Behavior
- Title(参考訳): 動的ユーザ行動を考慮した推薦システムのモンテカルロロールアウト政策
- Authors: Rahul Meshram and Kesav Kaza
- Abstract要約: モンテカルロのロールアウトポリシは、特定の構造を持たない任意の遷移ダイナミクスに対して、ミオピックポリシーよりも優れていることを示す。
しかし、遷移力学に何らかの構造が課されると、ミオピック・ポリシーはモンテカルロのロールアウト・ポリシーより優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We model online recommendation systems using the hidden Markov multi-state
restless multi-armed bandit problem. To solve this we present Monte Carlo
rollout policy. We illustrate numerically that Monte Carlo rollout policy
performs better than myopic policy for arbitrary transition dynamics with no
specific structure. But, when some structure is imposed on the transition
dynamics, myopic policy performs better than Monte Carlo rollout policy.
- Abstract(参考訳): 我々は,隠れマルコフマルチステートレスレスレスレス・マルチアーム・バンディット問題を用いてオンラインレコメンデーションシステムをモデル化する。
そこで,モンテカルロのロールアウト政策を提案する。
モンテカルロロールアウト政策が特定の構造を持たない任意の遷移ダイナミクスの筋電図政策よりも優れていることを数値的に示す。
しかし、遷移ダイナミクスに何らかの構造を課すと、筋電図ポリシーはモンテカルロのロールアウトポリシーよりも優れています。
関連論文リスト
- Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Model-based Offline Reinforcement Learning with Local Misspecification [35.75701143290119]
本稿では、モデルに基づくオフライン強化学習ポリシーの性能を低くし、動的モデルの誤特定と分布ミスマッチを明示的にキャプチャする。
最適なオフラインポリシー選択のための経験的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-26T21:26:56Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Policy Learning and Evaluation with Randomized Quasi-Monte Carlo [28.835015520341766]
我々はモンテカルロサンプルを低分解点集合に置き換えることを提案する。
我々はポリシー勾配法とランダム化された準モンテカルロを組み合わせ、ポリシー勾配とアクター批判アルゴリズムのばらつきを導出する。
我々の経験的分析はモンテカルロを準モンテカルロに置き換えた直観がより正確な勾配推定をもたらすことを示す。
論文 参考訳(メタデータ) (2022-02-16T00:42:12Z) - Indexability and Rollout Policy for Multi-State Partially Observable
Restless Bandits [0.0]
部分的に観測可能な状態を持つレストなマルチアームバンドは、通信システム、情報年齢、レコメンデーションシステムに応用されている。
意思決定者にとって観測可能な情報に基づく3つの異なるモデルを考える。
モデル2と3のしきい値型ポリシーと指数性を示す。
論文 参考訳(メタデータ) (2021-07-30T03:47:58Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - Sequential Monte Carlo Bandits [1.9205272414658485]
我々は、連続モンテカルロ法(SMC)を用いることで、ベイジアン多重武装バンディット(MAB)アルゴリズムを元の設定を超えて拡張する。
MABは、長期的な支払いを最大化するポリシーを学ぶことを目標とするシーケンシャルな意思決定問題である。
本稿では,線形力学系を用いて時間力学をモデル化した非定常帯域について述べる。
論文 参考訳(メタデータ) (2018-08-08T20:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。