論文の概要: Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy
- arxiv url: http://arxiv.org/abs/2404.01830v1
- Date: Tue, 2 Apr 2024 10:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 16:49:07.461720
- Title: Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy
- Title(参考訳): 推定ログポリシによる二重ロバスト・オフ・ポリティクス評価
- Authors: Kyungbok Lee, Myunghee Cho Paik,
- Abstract要約: 本稿では,マルコフ決定プロセスのための新しい二重ロバスト(DR)オフ・ポリティクス (DRUnknown) を導入し,ログポリシと値関数の双方が未知な状況を想定した。
提案した推定器は,まずログポリシを推定し,その評価器の分散を最小化し,ログポリシの効果を考慮し,値関数モデルを推定する。
- 参考スコア(独自算出の注目度): 11.16777821381608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel doubly-robust (DR) off-policy evaluation (OPE) estimator for Markov decision processes, DRUnknown, designed for situations where both the logging policy and the value function are unknown. The proposed estimator initially estimates the logging policy and then estimates the value function model by minimizing the asymptotic variance of the estimator while considering the estimating effect of the logging policy. When the logging policy model is correctly specified, DRUnknown achieves the smallest asymptotic variance within the class containing existing OPE estimators. When the value function model is also correctly specified, DRUnknown is optimal as its asymptotic variance reaches the semiparametric lower bound. We present experimental results conducted in contextual bandits and reinforcement learning to compare the performance of DRUnknown with that of existing methods.
- Abstract(参考訳): 本稿では,マルコフ決定プロセスのための新しい2重ロバストオフ政治評価(OPE)推定器,DRUnknownを導入し,ログポリシと値関数の双方が未知な状況を想定した。
提案した推定器は,まずログポリシを推定し,その評価器の漸近的分散を最小化し,ログポリシの効果を考慮し,値関数モデルを推定する。
ロギングポリシモデルが正しく指定されると、DRUnknownは既存のOPE推定器を含むクラス内の最小の漸近分散を達成する。
値関数モデルも正しく指定されている場合、DRUnknownはその漸近分散が半パラメトリック下界に達するため最適である。
本稿では,DRUnknownの性能と既存手法の性能を比較するために,文脈的帯域幅と強化学習で実施した実験結果について述べる。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。