論文の概要: Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds
- arxiv url: http://arxiv.org/abs/2103.05741v1
- Date: Tue, 9 Mar 2021 22:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 15:06:08.769614
- Title: Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds
- Title(参考訳): オフポリシー評価の非無症状的信頼のインターバル:プライマリ境界とデュアルバウンド
- Authors: Yihao Feng, Ziyang Tang, Na Zhang, Qiang Liu
- Abstract要約: オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 21.520045697447372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) is the task of estimating the expected reward of
a given policy based on offline data previously collected under different
policies. Therefore, OPE is a key step in applying reinforcement learning to
real-world domains such as medical treatment, where interactive data collection
is expensive or even unsafe. As the observed data tends to be noisy and
limited, it is essential to provide rigorous uncertainty quantification, not
just a point estimation, when applying OPE to make high stakes decisions. This
work considers the problem of constructing non-asymptotic confidence intervals
in infinite-horizon off-policy evaluation, which remains a challenging open
question. We develop a practical algorithm through a primal-dual
optimization-based approach, which leverages the kernel Bellman loss (KBL) of
Feng et al.(2019) and a new martingale concentration inequality of KBL
applicable to time-dependent data with unknown mixing conditions. Our algorithm
makes minimum assumptions on the data and the function class of the Q-function,
and works for the behavior-agnostic settings where the data is collected under
a mix of arbitrary unknown behavior policies. We present empirical results that
clearly demonstrate the advantages of our approach over existing methods.
- Abstract(参考訳): オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
したがって、OPEは、インタラクティブなデータ収集が高価または安全でない医療などの現実世界のドメインに強化学習を適用するための重要なステップです。
観測データはノイズが多く制限される傾向にあるため、高利得決定にOPEを適用する際には、点推定だけでなく厳密な不確実性定量化を提供することが不可欠である。
本研究では, 無限水平オフポリシー評価における非無症状信頼区間の構築の問題を検討する。
Fengらによるカーネルベルマン損失(KBL)を利用した,原始双対最適化に基づく実用的なアルゴリズムを開発した。
(2019)とkblの新しいマルティンゲール濃度不等式は、未知混合条件を持つ時間依存データに適用できる。
提案アルゴリズムは,Q関数のデータと関数クラスについて最小限の仮定を行い,任意の未知の動作ポリシーの混合の下でデータを収集する振る舞いに依存しない設定で機能する。
既存の手法に対するアプローチの利点を明確に示す実証的な結果を示す。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Black-box Off-policy Estimation for Infinite-Horizon Reinforcement
Learning [26.880437279977155]
医療やロボティクスといった多くの現実的な応用において、長期的問題に対するオフ・ポリティクス推定が重要である。
政治外データの収集方法を知らずに定常分布の重要度を算出する新しい推定器を開発した。
論文 参考訳(メタデータ) (2020-03-24T21:44:51Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。