論文の概要: Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow
- arxiv url: http://arxiv.org/abs/2107.00204v1
- Date: Thu, 1 Jul 2021 03:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-03 01:33:20.602344
- Title: Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow
- Title(参考訳): 線形流れにおける逐次意思決定のためのバンディットを用いたマルコフ決定過程
- Authors: Wenjun Zeng and Yi Liu
- Abstract要約: 会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
- 参考スコア(独自算出の注目度): 73.1896399783641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In membership/subscriber acquisition and retention, we sometimes need to
recommend marketing content for multiple pages in sequence. Different from
general sequential decision making process, the use cases have a simpler flow
where customers per seeing recommended content on each page can only return
feedback as moving forward in the process or dropping from it until a
termination state. We refer to this type of problems as sequential decision
making in linear--flow. We propose to formulate the problem as an MDP with
Bandits where Bandits are employed to model the transition probability matrix.
At recommendation time, we use Thompson sampling (TS) to sample the transition
probabilities and allocate the best series of actions with analytical solution
through exact dynamic programming. The way that we formulate the problem allows
us to leverage TS's efficiency in balancing exploration and exploitation and
Bandit's convenience in modeling actions' incompatibility. In the simulation
study, we observe the proposed MDP with Bandits algorithm outperforms
Q-learning with $\epsilon$-greedy and decreasing $\epsilon$, independent
Bandits, and interaction Bandits. We also find the proposed algorithm's
performance is the most robust to changes in the across-page interdependence
strength.
- Abstract(参考訳): 会員/加入者獲得と保持では、複数のページのマーケティングコンテンツを連続して推奨する必要がある。
一般的なシーケンシャルな意思決定プロセスと異なり、ユースケースはよりシンプルなフローを持ち、各ページで推奨されたコンテンツを見た顧客は、プロセスを進めるか、終了までフィードバックを返さないといけません。
この種の問題を線形フローにおける逐次意思決定と呼ぶ。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
推奨時には、トンプソンサンプリング(TS)を用いて遷移確率をサンプリングし、厳密な動的プログラミングを通して解析的解を用いて最良の一連のアクションを割り当てる。
この問題を定式化することで、探索と搾取のバランスをとるTSの効率と、動作の非互換性をモデル化するBanditの利便性を活用できる。
シミュレーション研究では,Bandits アルゴリズムを用いた MDP が Q-learning を$\epsilon$-greedy で上回り,$\epsilon$-greedy と$\epsilon$,IndependentBandits,InteractionBandits が減少した。
また,提案アルゴリズムの性能は,ページ間の相互依存強度の変化に対して最も頑健であることがわかった。
関連論文リスト
- Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Policy Gradient With Serial Markov Chain Reasoning [10.152838128195468]
我々は,強化学習における意思決定を反復的推論プロセスとして行う新しい枠組みを導入する。
従来のRLには本質的に欠落しているいくつかの有用な特性があることを示す。
提案アルゴリズムは,人気の高いMujocoおよびDeepMind Controlベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T06:15:29Z) - Optimal Admission Control for Multiclass Queues with Time-Varying
Arrival Rates via State Abstraction [16.99621896314678]
我々は、意思決定者がランダムに到着したタスクを受け入れ、拒否する必要があるという、新しいキュー問題を考える。
目的は、処理されたタスクの総価格が有限の地平線上で最大になるように、どのタスクを受け入れるかを決定することである。
最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
論文 参考訳(メタデータ) (2022-03-14T12:38:13Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Bandit Linear Optimization for Sequential Decision Making and
Extensive-Form Games [102.23975166536326]
tree-form sequential decision making (tfsdm) は、エージェントと潜在的に敵対的な環境の間のツリー形式の相互作用をモデル化することで、古典的なワンショット意思決定を拡張する。
これは、各プレイヤーが幅広い形式のゲームで直面するオンライン意思決定問題、およびマルコフ決定プロセス、およびエージェントが観測された履歴を条件とする部分観察可能なマルコフ決定プロセスをキャプチャする。
本稿では, (i) 線形時間損失と (ii) $o(sqrtt)$ cumulative regret の両方を提供する拡張dmのバンディット線形最適化問題に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T05:00:13Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。