論文の概要: Accountable Off-Policy Evaluation With Kernel Bellman Statistics
- arxiv url: http://arxiv.org/abs/2008.06668v1
- Date: Sat, 15 Aug 2020 07:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 20:45:36.989311
- Title: Accountable Off-Policy Evaluation With Kernel Bellman Statistics
- Title(参考訳): Kernel Bellman Statistics による非政策評価
- Authors: Yihao Feng, Tongzheng Ren, Ziyang Tang, Qiang Liu
- Abstract要約: 我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.14119984573459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider off-policy evaluation (OPE), which evaluates the performance of a
new policy from observed data collected from previous experiments, without
requiring the execution of the new policy. This finds important applications in
areas with high execution cost or safety concerns, such as medical diagnosis,
recommendation systems and robotics. In practice, due to the limited
information from off-policy data, it is highly desirable to construct rigorous
confidence intervals, not just point estimation, for the policy performance. In
this work, we propose a new variational framework which reduces the problem of
calculating tight confidence bounds in OPE into an optimization problem on a
feasible set that catches the true state-action value function with high
probability. The feasible set is constructed by leveraging statistical
properties of a recently proposed kernel Bellman loss (Feng et al., 2019). We
design an efficient computational approach for calculating our bounds, and
extend it to perform post-hoc diagnosis and correction for existing estimators.
Empirical results show that our method yields tight confidence intervals in
different settings.
- Abstract(参考訳): 我々は,新しい政策の実行を必要とせず,以前の実験から収集した観測データから新しい政策の評価を行うオフ・ポリティィ・アセスメント(OPE)について考察する。
これは、高い実行コストや医療診断、レコメンデーションシステム、ロボット工学などの安全上の懸念のある分野において重要な応用を見出す。
実際には、オフポリシーデータからの限られた情報のため、ポリシー性能のためにポイント推定だけでなく、厳密な信頼区間を構築することが非常に望ましい。
本研究では, 真の状態動作値関数を高い確率でキャッチする実現可能集合上の最適化問題として, opeの密接な信頼境界を計算する問題を低減できる新しい変分フレームワークを提案する。
実現可能な集合は、最近提案されたカーネルベルマン損失(Feng et al., 2019)の統計的性質を利用して構成される。
我々は境界を計算するための効率的な計算手法を設計し、既存の推定器のポストホックな診断と修正を行うように拡張する。
実験の結果,本手法は異なる設定で密接な信頼区間を生じさせることがわかった。
関連論文リスト
- OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Off-Policy Interval Estimation with Lipschitz Value Iteration [29.232245317776723]
一般の連続した環境下での政治外評価のための区間境界を求めるための正当な手法を提案する。
リプシッツ値の反復法を導入し、単調に間隔を縮める。
論文 参考訳(メタデータ) (2020-10-29T07:25:56Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。