論文の概要: Local Metric Learning for Off-Policy Evaluation in Contextual Bandits
with Continuous Actions
- arxiv url: http://arxiv.org/abs/2210.13373v2
- Date: Tue, 25 Oct 2022 20:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:16:52.812910
- Title: Local Metric Learning for Off-Policy Evaluation in Contextual Bandits
with Continuous Actions
- Title(参考訳): 連続行動を伴う文脈帯域におけるオフポリティ評価のための局所的メトリクス学習
- Authors: Haanvid Lee, Jongmin Lee, Yunseon Choi, Wonseok Jeon, Byung-Jun Lee,
Yung-Kyun Noh, Kee-Eung Kim
- Abstract要約: 連続的な行動空間を持つ文脈的帯域における決定論的ポリシーの非政治評価(OPE)のための局所カーネル計量学習について検討する。
本稿では,バイアスと分散の分析に基づく最適計量の解析解を提案する。
- 参考スコア(独自算出の注目度): 33.96450847451234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider local kernel metric learning for off-policy evaluation (OPE) of
deterministic policies in contextual bandits with continuous action spaces. Our
work is motivated by practical scenarios where the target policy needs to be
deterministic due to domain requirements, such as prescription of treatment
dosage and duration in medicine. Although importance sampling (IS) provides a
basic principle for OPE, it is ill-posed for the deterministic target policy
with continuous actions. Our main idea is to relax the target policy and pose
the problem as kernel-based estimation, where we learn the kernel metric in
order to minimize the overall mean squared error (MSE). We present an analytic
solution for the optimal metric, based on the analysis of bias and variance.
Whereas prior work has been limited to scalar action spaces or kernel bandwidth
selection, our work takes a step further being capable of vector action spaces
and metric optimization. We show that our estimator is consistent, and
significantly reduces the MSE compared to baseline OPE methods through
experiments on various domains.
- Abstract(参考訳): 我々は,連続的な行動空間を持つ文脈的バンディットにおける決定論的ポリシーのオフポリシー評価(op)のための局所カーネルメトリック学習を考える。
本研究の動機は,治療費の処方や医薬の持続時間といったドメイン要件により,対象方針を決定する必要がある,という現実的なシナリオにある。
重要サンプリング(IS)はOPEの基本原理を提供するが、連続行動を伴う決定論的目標政策には不適当である。
本研究の主な考え方は,カーネル平均二乗誤差(MSE)を最小化するためにカーネルメトリックスを学習するカーネルベースの推定法として,ターゲットポリシーを緩和し,問題を提起することである。
本稿では,バイアスと分散の分析に基づく最適計量の分析解を提案する。
以前の作業はスカラー動作空間やカーネル帯域選択に限定されていたが、我々の作業はさらにベクトルアクション空間とメトリック最適化の能力を持たせている。
評価器は整合性を示し, 各種領域の実験によるベースラインOPE法と比較して, MSEを著しく低減する。
関連論文リスト
- Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies [24.706986328622193]
強化学習のための決定論的目標政策の非政治的評価を考察する。
動作値関数の時間差更新ベクトルの推定値の平均二乗誤差を最小化するカーネルメトリクスを学習する。
この緩和による推定誤差のバイアスとばらつきを導出し、最適なカーネル計量に対する解析解を提供する。
論文 参考訳(メタデータ) (2024-05-29T06:17:33Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。