論文の概要: Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2110.15332v2
- Date: Wed, 22 Mar 2023 22:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 19:06:18.183613
- Title: Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes
- Title(参考訳): 近位強化学習:部分観察マルコフ決定過程における効率的なオフポリティ評価
- Authors: Andrew Bennett, Nathan Kallus
- Abstract要約: 医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
- 参考スコア(独自算出の注目度): 65.91730154730905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In applications of offline reinforcement learning to observational data, such
as in healthcare or education, a general concern is that observed actions might
be affected by unobserved factors, inducing confounding and biasing estimates
derived under the assumption of a perfect Markov decision process (MDP) model.
Here we tackle this by considering off-policy evaluation in a partially
observed MDP (POMDP). Specifically, we consider estimating the value of a given
target policy in a POMDP given trajectories with only partial state
observations generated by a different and unknown policy that may depend on the
unobserved state. We tackle two questions: what conditions allow us to identify
the target policy value from the observed data and, given identification, how
to best estimate it. To answer these, we extend the framework of proximal
causal inference to our POMDP setting, providing a variety of settings where
identification is made possible by the existence of so-called bridge functions.
We then show how to construct semiparametrically efficient estimators in these
settings. We term the resulting framework proximal reinforcement learning
(PRL). We demonstrate the benefits of PRL in an extensive simulation study and
on the problem of sepsis management.
- Abstract(参考訳): 医学や教育などの観測データへのオフライン強化学習の適用においては、観測された行動は観測されていない要因に影響され、完全なマルコフ決定過程(MDP)モデル(英語版)の仮定に基づいて導かれる偏見と偏見を誘発する。
本稿では,部分観察型mdp (pomdp) におけるオフポリシー評価について検討する。
具体的には、観測された状態に依存する可能性のある異なる未知のポリシーによって生成される部分的な状態の観測のみを用いて、POMDPの与えられた目標ポリシーの価値を推定することを検討する。
我々は、観測されたデータから対象の政策価値を特定できる条件と、それを最もよく見積もる方法の2つに対処する。
これらの問題に対処するため、我々は近因果推論の枠組みをPOMDP設定に拡張し、いわゆるブリッジ関数の存在によって識別が可能となる様々な設定を提供する。
次に、これらの設定で半パラメトリックで効率的な推定器を構築する方法を示す。
得られたフレームワークをPRL(proximal reinforcement learning)と呼ぶ。
本研究では,PRLの利点を広範囲にわたるシミュレーション研究および敗血症管理の問題点について示す。
関連論文リスト
- RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - An Instrumental Variable Approach to Confounded Off-Policy Evaluation [11.785128674216903]
オフ政治評価(Off-policy Evaluation、OPE)は、目標政策の回帰を推定する手法である。
本稿では,マルコフ決定過程における一貫した OPE のインストゥルメンタル変数 (IV) に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-12-29T22:06:51Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Generalizing Off-Policy Evaluation From a Causal Perspective For
Sequential Decision-Making [32.06576007608403]
我々は,OPEの基本的な限界を理解する上で,この協会を明確に強調することが重要な意味を持つと主張している。
この関係がどのようにして自然デシラタを動機付け、因果推定の一般的なセットを考えるかを実証する。
我々は,これらの側面を,大規模OPE研究のための実用的なデシラタとして論じるとともに,実用性でインラインで論じる。
論文 参考訳(メタデータ) (2022-01-20T16:13:16Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Off-Policy Evaluation in Partially Observed Markov Decision Processes
under Sequential Ignorability [8.388782503421504]
逐次的無知下での動的処理規則の非政治的評価を考察する。
我々は,POMDPにおける非政治評価が,(十分に観察された)マルコフ決定過程における非政治評価よりも厳密であることを示す。
論文 参考訳(メタデータ) (2021-10-24T03:35:23Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。