論文の概要: Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2404.00099v1
- Date: Fri, 29 Mar 2024 18:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 07:17:12.638275
- Title: Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes
- Title(参考訳): ロバストマルコフ決定過程における効率およびシャープオフポリティ評価
- Authors: Andrew Bennett, Nathan Kallus, Miruna Oprescu, Wen Sun, Kaiwen Wang,
- Abstract要約: マルコフ決定過程(MDP)に対する最善かつ最悪の摂動下での政策評価について検討する。
これは、歴史的環境と将来の環境のシフトの可能性において重要な問題である。
本稿では、ある乗算係数またはその逆数への遷移カーネル密度を変更可能な摂動モデルを提案する。
- 参考スコア(独自算出の注目度): 44.974100402600165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study evaluating a policy under best- and worst-case perturbations to a Markov decision process (MDP), given transition observations from the original MDP, whether under the same or different policy. This is an important problem when there is the possibility of a shift between historical and future environments, due to e.g. unmeasured confounding, distributional shift, or an adversarial environment. We propose a perturbation model that can modify transition kernel densities up to a given multiplicative factor or its reciprocal, which extends the classic marginal sensitivity model (MSM) for single time step decision making to infinite-horizon RL. We characterize the sharp bounds on policy value under this model, that is, the tightest possible bounds given by the transition observations from the original MDP, and we study the estimation of these bounds from such transition observations. We develop an estimator with several appealing guarantees: it is semiparametrically efficient, and remains so even when certain necessary nuisance functions such as worst-case Q-functions are estimated at slow nonparametric rates. It is also asymptotically normal, enabling easy statistical inference using Wald confidence intervals. In addition, when certain nuisances are estimated inconsistently we still estimate a valid, albeit possibly not sharp bounds on the policy value. We validate these properties in numeric simulations. The combination of accounting for environment shifts from train to test (robustness), being insensitive to nuisance-function estimation (orthogonality), and accounting for having only finite samples to learn from (inference) together leads to credible and reliable policy evaluation.
- Abstract(参考訳): 我々は,マルコフ決定過程 (MDP) に対する最善かつ最悪の摂動の下での政策評価について検討し,同じ政策であっても異なる政策であっても,元のMDPからの遷移観測を条件として検討した。
これは、例えば、未測定のコンバウンディング、分散シフト、あるいは敵環境による、歴史的環境と将来の環境のシフトの可能性において重要な問題である。
本稿では、ある乗法係数またはその相反係数の遷移カーネル密度を変更可能な摂動モデルを提案し、無限水平 RL への単一ステップ決定のための古典的限界感度モデル(MSM)を拡張した。
我々は,このモデルの下での政策値の鋭い境界,すなわち,元のMDPからの遷移観測によって与えられる最も狭い境界を特徴付け,これらの境界をそのような遷移観測から推定する。
半パラメトリック的に効率的であり、最悪のQ-関数のようなある種のニュアンス関数が遅い非パラメトリック速度で推定されたとしても、そのように保たれている。
また、漸近的に正規であり、ウォルドの信頼区間を用いた容易に統計的推測を可能にする。
さらに、あるニュアンスを不整合に見積もった場合、我々は依然として有効であると見積もるが、おそらく政策値の鋭い境界は持たない。
これらの性質を数値シミュレーションで検証する。
環境変化の会計は、列車から試験(腐食性)、ニュアンス関数推定(直交性)に敏感であること、そして(推論)から学ぶための有限サンプルしか持たないことが、信頼性と信頼性のある政策評価をもたらす。
関連論文リスト
- Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - On the Pitfalls of Heteroscedastic Uncertainty Estimation with
Probabilistic Neural Networks [23.502721524477444]
このアプローチがいかにして非常に貧弱だが安定な推定に繋がるかを示す合成例を示す。
問題を悪化させる特定の条件とともに、犯人をログライクな損失とみなす。
我々は、損失に対する各データポイントの寄与を、$beta$-exponentiated variance estimateによって重み付けする、$beta$-NLLと呼ばれる別の定式化を提案する。
論文 参考訳(メタデータ) (2022-03-17T08:46:17Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。