論文の概要: Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2209.08666v1
- Date: Sun, 18 Sep 2022 22:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 20:06:01.680881
- Title: Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes
- Title(参考訳): マルコフ決定過程における楽器変数を用いたオフライン強化学習
- Authors: Zuyue Fu, Zhengling Qi, Zhaoran Wang, Zhuoran Yang, Yanxun Xu, Michael
R. Kosorok
- Abstract要約: 未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
- 参考スコア(独自算出の注目度): 93.61202366677526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the offline reinforcement learning (RL) in the face of unmeasured
confounders. Due to the lack of online interaction with the environment,
offline RL is facing the following two significant challenges: (i) the agent
may be confounded by the unobserved state variables; (ii) the offline data
collected a prior does not provide sufficient coverage for the environment. To
tackle the above challenges, we study the policy learning in the confounded
MDPs with the aid of instrumental variables. Specifically, we first establish
value function (VF)-based and marginalized importance sampling (MIS)-based
identification results for the expected total reward in the confounded MDPs.
Then by leveraging pessimism and our identification results, we propose various
policy learning methods with the finite-sample suboptimality guarantee of
finding the optimal in-class policy under minimal data coverage and modeling
assumptions. Lastly, our extensive theoretical investigations and one numerical
study motivated by the kidney transplantation demonstrate the promising
performance of the proposed methods.
- Abstract(参考訳): 本研究では, オフライン強化学習(RL)について検討した。
環境とのオンラインインタラクションの欠如により、オフラインrlは以下の2つの大きな課題に直面している。
(i) エージェントは,監視されていない状態変数によって構成することができる。
(ii)事前に収集したオフラインデータは、環境に十分なカバレッジを提供していない。
上記の課題に取り組むため,本研究は,mdpを統合した政策学習をインストゥルメンタル変数を用いて検討する。
具体的には,まず,MDPにおける期待総報酬に対する価値関数(VF)に基づく最小化重要度サンプリング(MIS)に基づく識別結果を確立する。
そして、悲観主義と識別結果を活用することで、最小限のデータカバレッジとモデリング仮定の下で最適なクラスポリシーを見つけるための有限サンプル準最適性を保証する様々なポリシー学習手法を提案する。
最後に, 腎移植を動機とした広範な理論的研究と数値的研究により, 提案手法の有望な性能が示された。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Proximal Learning for Individualized Treatment Regimes Under Unmeasured
Confounding [3.020737957610002]
我々は,未測定のコンファウンディングの存在下で最適な個別化治療レジーム(itrs)を推定する手法を開発した。
これらの結果に基づいて,クラス内最適ITRの多種多様な分類に基づく探索手法を提案する。
論文 参考訳(メタデータ) (2021-05-03T21:49:49Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。