論文の概要: Harnessing Causality in Reinforcement Learning With Bagged Decision Times
- arxiv url: http://arxiv.org/abs/2410.14659v1
- Date: Fri, 18 Oct 2024 17:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:45.903155
- Title: Harnessing Causality in Reinforcement Learning With Bagged Decision Times
- Title(参考訳): Bagged Decision Times を用いた強化学習におけるハーネスング因果関係
- Authors: Daiqi Gao, Hsin-Yu Lai, Predrag Klasnja, Susan A. Murphy,
- Abstract要約: バッグは連続した決定時間の有限列を含む。
遷移力学は、バッグ内の非マルコフ的かつ非定常的である。
バッグ内のすべてのアクションは、バッグの端で観察された1つの報酬に共同で影響します。
- 参考スコア(独自算出の注目度): 3.5698678013121334
- License:
- Abstract: We consider reinforcement learning (RL) for a class of problems with bagged decision times. A bag contains a finite sequence of consecutive decision times. The transition dynamics are non-Markovian and non-stationary within a bag. Further, all actions within a bag jointly impact a single reward, observed at the end of the bag. Our goal is to construct an online RL algorithm to maximize the discounted sum of the bag-specific rewards. To handle non-Markovian transitions within a bag, we utilize an expert-provided causal directed acyclic graph (DAG). Based on the DAG, we construct the states as a dynamical Bayesian sufficient statistic of the observed history, which results in Markovian state transitions within and across bags. We then frame this problem as a periodic Markov decision process (MDP) that allows non-stationarity within a period. An online RL algorithm based on Bellman-equations for stationary MDPs is generalized to handle periodic MDPs. To justify the proposed RL algorithm, we show that our constructed state achieves the maximal optimal value function among all state constructions for a periodic MDP. Further we prove the Bellman optimality equations for periodic MDPs. We evaluate the proposed method on testbed variants, constructed with real data from a mobile health clinical trial.
- Abstract(参考訳): 本稿では,有意な決定時間を持つ問題に対する強化学習(RL)について考察する。
バッグは連続した決定時間の有限列を含む。
遷移力学は、バッグ内の非マルコフ的かつ非定常的である。
さらに、バッグ内のすべてのアクションが、バッグの端で観察される1つの報酬に共同で影響する。
我々のゴールは、バッグ固有の報酬の割引金額を最大化するオンラインRLアルゴリズムを構築することである。
バッグ内の非マルコフ遷移を扱うために、専門家が提案する因果有向非巡回グラフ(DAG)を用いる。
DAGに基づいて、我々は、観測された歴史の十分な統計量として状態を構築し、その結果、バッグ内およびバッグ間のマルコフ状態遷移をもたらす。
次に、この問題を周期的マルコフ決定過程(MDP)として、一定期間内に非定常性を可能にする。
定常MDPに対するベルマン方程式に基づくオンラインRLアルゴリズムは、周期MDPを扱うために一般化される。
提案した RL アルゴリズムを正当化するために, 周期 MDP のすべての状態構成において, 構築された状態が最大値関数を達成することを示す。
さらに、周期 MDP に対するベルマン最適性方程式を証明した。
そこで本研究では,モバイル医療治験から得られた実データをもとに構築したテストベッド変種について評価を行った。
関連論文リスト
- Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - ChronosPerseus: Randomized Point-based Value Iteration with Importance
Sampling for POSMDPs [2.3204178451683264]
強化学習では、エージェントはマルコフ決定プロセス(MDP)でモデル化された環境をうまく利用した。
多くの問題領域では、エージェントはその後の決定までうるさい観察やランダムな時間に悩まされることがある。
本稿では,部分観測可能な半マルコフ決定プロセス (POSMDP) が未知の時間的側面に対処するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-07-16T03:31:47Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Monte Carlo Information-Oriented Planning [6.0158981171030685]
rho-POMDPとして表現された情報収集問題を解決する方法について議論する。
我々はPOMCPアルゴリズムを用いてrho-POMDPのモンテカルロツリー探索を提案する。
論文 参考訳(メタデータ) (2021-03-21T09:09:27Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。