論文の概要: Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2505.22492v1
- Date: Wed, 28 May 2025 15:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.703929
- Title: Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation
- Title(参考訳): 政策外評価における歴史依存行動政策による重要度サンプリングのパラドックスの解明
- Authors: Hongyi Zhou, Josiah P. Hanna, Jin Zhu, Ying Yang, Chengchun Shi,
- Abstract要約: 履歴に依存した行動ポリシーを推定すると,真の行動方針がマルコフ的であっても平均2乗誤差が小さくなることを示す。
より長い歴史における行動政策条件として, 変動の持続的減少を示す。
これらの結果は, 連続IS推定器, 二重頑健IS推定器, 辺縁化IS推定器など, その他のOPE推定器に拡張する。
- 参考スコア(独自算出の注目度): 13.230909541257724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies off-policy evaluation (OPE) in reinforcement learning with a focus on behavior policy estimation for importance sampling. Prior work has shown empirically that estimating a history-dependent behavior policy can lead to lower mean squared error (MSE) even when the true behavior policy is Markovian. However, the question of why the use of history should lower MSE remains open. In this paper, we theoretically demystify this paradox by deriving a bias-variance decomposition of the MSE of ordinary importance sampling (IS) estimators, demonstrating that history-dependent behavior policy estimation decreases their asymptotic variances while increasing their finite-sample biases. Additionally, as the estimated behavior policy conditions on a longer history, we show a consistent decrease in variance. We extend these findings to a range of other OPE estimators, including the sequential IS estimator, the doubly robust estimator and the marginalized IS estimator, with the behavior policy estimated either parametrically or non-parametrically.
- Abstract(参考訳): 本稿では、重要サンプリングのための行動ポリシー推定に焦点をあてて、強化学習におけるオフ・ポリシー評価(OPE)について検討する。
過去の研究は、歴史に依存した行動ポリシーを推定すると、真の行動ポリシーがマルコフ的であっても平均二乗誤差(MSE)が低くなることを示した。
しかし、なぜ歴史の利用がMSEを下げるべきなのかという問題は未解決のままである。
本稿では,従来の重要度サンプリング(IS)推定器のMSEのバイアス分散分解を導出することにより,このパラドックスを理論的にデミストする。
さらに, より長い歴史における行動政策条件の予測値として, ばらつきが一貫した減少を示す。
これらの結果は, 連続IS推定器, 二重頑健IS推定器, 辺縁化IS推定器など他のOPE推定器にも拡張され, 行動方針はパラメトリックまたは非パラメトリックで推定される。
関連論文リスト
- Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy [11.16777821381608]
本稿では,マルコフ決定プロセスのための新しい二重ロバスト(DR)オフ・ポリティクス (DRUnknown) を導入し,ログポリシと値関数の双方が未知な状況を想定した。
提案した推定器は,まずログポリシを推定し,その評価器の分散を最小化し,ログポリシの効果を考慮し,値関数モデルを推定する。
論文 参考訳(メタデータ) (2024-04-02T10:42:44Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Low Variance Off-policy Evaluation with State-based Importance Sampling [21.727827944373793]
本稿では, 重みの計算から特定の状態を取り除き, ばらつきを低減できる状態ベース重要度サンプリング推定器を提案する。
4つの領域の実験により、状態ベースの手法は、従来の手法に比べて、ばらつきの低減と精度の向上を一貫して達成していることが示された。
論文 参考訳(メタデータ) (2022-12-07T19:56:11Z) - Model-Free and Model-Based Policy Evaluation when Causality is Uncertain [7.858296711223292]
政治外の評価では、力学に影響を及ぼし、未知の行動ポリシーによって使用される観測されていない変数が存在する可能性がある。
我々は、これらの観測されていない共同設立者に対する感度を有限の地平線で評価するために、最悪のケース境界を開発する。
頑健なMDPを持つモデルベースアプローチは、動的にドメイン知識を活用することにより、よりシャープな下位境界を与えることを示す。
論文 参考訳(メタデータ) (2022-04-02T23:40:15Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。