論文の概要: Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies
- arxiv url: http://arxiv.org/abs/2405.18792v1
- Date: Wed, 29 May 2024 06:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:38:40.066561
- Title: Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies
- Title(参考訳): 決定論的RLポリティクスのインサンプルオフポリティ評価のためのカーネルメトリック学習
- Authors: Haanvid Lee, Tri Wahyu Guntara, Jongmin Lee, Yung-Kyun Noh, Kee-Eung Kim,
- Abstract要約: 強化学習のための決定論的目標政策の非政治的評価を考察する。
動作値関数の時間差更新ベクトルの推定値の平均二乗誤差を最小化するカーネルメトリクスを学習する。
この緩和による推定誤差のバイアスとばらつきを導出し、最適なカーネル計量に対する解析解を提供する。
- 参考スコア(独自算出の注目度): 24.706986328622193
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider off-policy evaluation (OPE) of deterministic target policies for reinforcement learning (RL) in environments with continuous action spaces. While it is common to use importance sampling for OPE, it suffers from high variance when the behavior policy deviates significantly from the target policy. In order to address this issue, some recent works on OPE proposed in-sample learning with importance resampling. Yet, these approaches are not applicable to deterministic target policies for continuous action spaces. To address this limitation, we propose to relax the deterministic target policy using a kernel and learn the kernel metrics that minimize the overall mean squared error of the estimated temporal difference update vector of an action value function, where the action value function is used for policy evaluation. We derive the bias and variance of the estimation error due to this relaxation and provide analytic solutions for the optimal kernel metric. In empirical studies using various test domains, we show that the OPE with in-sample learning using the kernel with optimized metric achieves significantly improved accuracy than other baselines.
- Abstract(参考訳): 連続行動空間を有する環境における強化学習(RL)のための決定論的目標政策のオフ・ポリティクス評価(OPE)を検討する。
OPEの重要サンプリングは一般的に用いられるが,行動方針が目標方針から著しく逸脱した場合には,高いばらつきに悩まされる。
この問題に対処するため、OPEに関する最近の研究は、重要な再サンプリングを伴うインサンプルラーニングを提案している。
しかし、これらのアプローチは連続的な作用空間に対する決定論的対象ポリシーには適用できない。
この制限に対処するために、カーネルを用いた決定論的ターゲットポリシーを緩和し、アクション値関数の推定時間差更新ベクトルの総平均二乗誤差を最小限に抑えるカーネルメトリクスを学習し、アクション値関数をポリシー評価に使用する。
この緩和による推定誤差のバイアスと分散を導出し、最適なカーネル計量に対する解析解を提供する。
種々のテスト領域を用いた実証実験において,カーネルを用いたサンプル内学習を用いたOPEは,他のベースラインよりも精度が大幅に向上することを示した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Local Metric Learning for Off-Policy Evaluation in Contextual Bandits
with Continuous Actions [33.96450847451234]
連続的な行動空間を持つ文脈的帯域における決定論的ポリシーの非政治評価(OPE)のための局所カーネル計量学習について検討する。
本稿では,バイアスと分散の分析に基づく最適計量の解析解を提案する。
論文 参考訳(メタデータ) (2022-10-24T16:17:51Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。