論文の概要: Case-based off-policy policy evaluation using prototype learning
- arxiv url: http://arxiv.org/abs/2111.11113v1
- Date: Mon, 22 Nov 2021 11:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:56:47.705484
- Title: Case-based off-policy policy evaluation using prototype learning
- Title(参考訳): プロトタイプ学習を用いた事例ベースオフポリシー政策評価
- Authors: Anton Matsson, Fredrik D. Johansson
- Abstract要約: プロトタイプ学習を用いた非政治政策評価のための行動ポリシーの推定について提案する。
本稿では,プロトタイプが目標と行動方針の相違点を要約する方法について述べる。
また、ターゲットポリシーのどの部分が見積もりに最も影響しているかをよりよく理解するために、プロトタイプの観点から推定値についても記述する。
- 参考スコア(独自算出の注目度): 8.550140109387467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Importance sampling (IS) is often used to perform off-policy policy
evaluation but is prone to several issues, especially when the behavior policy
is unknown and must be estimated from data. Significant differences between the
target and behavior policies can result in uncertain value estimates due to,
for example, high variance and non-evaluated actions. If the behavior policy is
estimated using black-box models, it can be hard to diagnose potential problems
and to determine for which inputs the policies differ in their suggested
actions and resulting values. To address this, we propose estimating the
behavior policy for IS using prototype learning. We apply this approach in the
evaluation of policies for sepsis treatment, demonstrating how the prototypes
give a condensed summary of differences between the target and behavior
policies while retaining an accuracy comparable to baseline estimators. We also
describe estimated values in terms of the prototypes to better understand which
parts of the target policies have the most impact on the estimates. Using a
simulator, we study the bias resulting from restricting models to use
prototypes.
- Abstract(参考訳): 重要度サンプリング(IS)は、政治外の政策評価にしばしば用いられるが、特に行動方針が不明でデータから推定しなければならない場合、いくつかの問題が発生する。
目標と行動方針の有意な違いは、例えば高い分散と非評価行動による不確実な値推定をもたらす可能性がある。
ブラックボックスモデルを用いて行動ポリシーを推定すると、潜在的な問題を診断し、どの入力が提案された行動と結果の値に異なるかを決定することは困難である。
そこで本研究では,プロトタイプ学習を用いてISの行動ポリシーを推定する。
我々はこのアプローチを敗血症治療の方針評価に適用し, 対象と行動方針の差異を要約し, 基準推定値に匹敵する精度を保ちながら, プロトタイプの妥当性を実証した。
また、ターゲットポリシーのどの部分が見積もりに最も影響しているかをよりよく理解するために、プロトタイプの観点から推定値についても記述する。
シミュレータを用いて,モデルのプロトタイプ使用を制限することにより生じるバイアスについて検討する。
関連論文リスト
- Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies [24.706986328622193]
強化学習のための決定論的目標政策の非政治的評価を考察する。
動作値関数の時間差更新ベクトルの推定値の平均二乗誤差を最小化するカーネルメトリクスを学習する。
この緩和による推定誤差のバイアスとばらつきを導出し、最適なカーネル計量に対する解析解を提供する。
論文 参考訳(メタデータ) (2024-05-29T06:17:33Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior
Policies [3.855085732184416]
オフ政治評価は、行動ポリシーから収集されたオフラインデータを用いて目標ポリシーを評価する強化学習の鍵となる要素である。
本稿では,異なる行動ポリシーによって生成された推定器を正しく混合する方法について論じる。
シミュレーションリコメンデータシステムの実験から,提案手法は推定平均二乗誤差を低減するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-11-29T12:57:54Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。