論文の概要: Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2404.00099v2
- Date: Fri, 01 Nov 2024 19:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:26:41.836112
- Title: Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes
- Title(参考訳): ロバストマルコフ決定過程における効率およびシャープオフポリティ評価
- Authors: Andrew Bennett, Nathan Kallus, Miruna Oprescu, Wen Sun, Kaiwen Wang,
- Abstract要約: 意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
- 参考スコア(独自算出の注目度): 44.974100402600165
- License:
- Abstract: We study the evaluation of a policy under best- and worst-case perturbations to a Markov decision process (MDP), using transition observations from the original MDP, whether they are generated under the same or a different policy. This is an important problem when there is the possibility of a shift between historical and future environments, $\textit{e.g.}$ due to unmeasured confounding, distributional shift, or an adversarial environment. We propose a perturbation model that allows changes in the transition kernel densities up to a given multiplicative factor or its reciprocal, extending the classic marginal sensitivity model (MSM) for single time-step decision-making to infinite-horizon RL. We characterize the sharp bounds on policy value under this model $\unicode{x2013}$ $\textit{i.e.}$, the tightest possible bounds based on transition observations from the original MDP $\unicode{x2013}$ and we study the estimation of these bounds from such transition observations. We develop an estimator with several important guarantees: it is semiparametrically efficient, and remains so even when certain necessary nuisance functions, such as worst-case Q-functions, are estimated at slow, nonparametric rates. Our estimator is also asymptotically normal, enabling straightforward statistical inference using Wald confidence intervals. Moreover, when certain nuisances are estimated inconsistently, the estimator still provides valid, albeit possibly not sharp, bounds on the policy value. We validate these properties in numerical simulations. The combination of accounting for environment shifts from train to test (robustness), being insensitive to nuisance-function estimation (orthogonality), and addressing the challenge of learning from finite samples (inference) together leads to credible and reliable policy evaluation.
- Abstract(参考訳): 我々は,マルコフ決定過程(MDP)に対する最善かつ最悪の摂動下での政策の評価について,同一あるいは異なる政策下で生成されるかに関わらず,元のMDPからの遷移観測を用いて検討した。
これは、過去の環境と将来の環境にシフトする可能性があり、未測定のコンファウンディング、分散シフト、あるいは敵対的な環境のために$\textit{e g }$である場合の重要な問題である。
本稿では,遷移カーネル密度の変化を与えられた乗法係数あるいはその相反係数まで変化させることができる摂動モデルを提案し,単一の時間ステップ決定のための古典的限界感度モデル(MSM)を無限水平RLに拡張する。
我々は、このモデルの下でポリシー値のシャープな境界を特徴づける: $\unicode{x2013}$ $\textit{i.e.}$, the tightest possible bounds on the transition observed from the original MDP $\unicode{x2013}$, and we study the estimated of these bounds from such transition observed。
半パラメトリック的に効率的であり、最悪のQ-関数のようなある種のニュアンス関数が遅い非パラメトリック速度で推定されたとしても、そのように保たれている。
我々の推定器は漸近的に正規であり、ウォルドの信頼区間を用いた単純な統計的推測を可能にする。
さらに、あるニュアンスを不整合に見積もる場合、推定器は依然として有効であり、おそらくはシャープではないが、政策値に束縛されている。
我々はこれらの特性を数値シミュレーションで検証する。
環境変化の会計は、列車から試験(腐食性)、ニュアンス関数推定(直交性)に敏感であること、有限サンプル(推論)から学習することの難しさに対処することの組み合わせは、信頼性と信頼性の高い政策評価をもたらす。
関連論文リスト
- Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - On the Pitfalls of Heteroscedastic Uncertainty Estimation with
Probabilistic Neural Networks [23.502721524477444]
このアプローチがいかにして非常に貧弱だが安定な推定に繋がるかを示す合成例を示す。
問題を悪化させる特定の条件とともに、犯人をログライクな損失とみなす。
我々は、損失に対する各データポイントの寄与を、$beta$-exponentiated variance estimateによって重み付けする、$beta$-NLLと呼ばれる別の定式化を提案する。
論文 参考訳(メタデータ) (2022-03-17T08:46:17Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。