論文の概要: Off-Policy Interval Estimation with Lipschitz Value Iteration
- arxiv url: http://arxiv.org/abs/2010.15392v1
- Date: Thu, 29 Oct 2020 07:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:08:54.949646
- Title: Off-Policy Interval Estimation with Lipschitz Value Iteration
- Title(参考訳): リプシッツ値反復によるオフポリシィ区間推定
- Authors: Ziyang Tang, Yihao Feng, Na Zhang, Jian Peng, Qiang Liu
- Abstract要約: 一般の連続した環境下での政治外評価のための区間境界を求めるための正当な手法を提案する。
リプシッツ値の反復法を導入し、単調に間隔を縮める。
- 参考スコア(独自算出の注目度): 29.232245317776723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation provides an essential tool for evaluating the effects
of different policies or treatments using only observed data. When applied to
high-stakes scenarios such as medical diagnosis or financial decision-making,
it is crucial to provide provably correct upper and lower bounds of the
expected reward, not just a classical single point estimate, to the end-users,
as executing a poor policy can be very costly. In this work, we propose a
provably correct method for obtaining interval bounds for off-policy evaluation
in a general continuous setting. The idea is to search for the maximum and
minimum values of the expected reward among all the Lipschitz Q-functions that
are consistent with the observations, which amounts to solving a constrained
optimization problem on a Lipschitz function space. We go on to introduce a
Lipschitz value iteration method to monotonically tighten the interval, which
is simple yet efficient and provably convergent. We demonstrate the practical
efficiency of our method on a range of benchmarks.
- Abstract(参考訳): オフ政治評価は、観察されたデータのみを使用して異なるポリシーや治療の効果を評価するための重要なツールを提供する。
医療診断や金融意思決定などの高額なシナリオに適用する場合は、従来の単一点推定だけでなく、期待される報酬の上下限をエンドユーザーに提供することが極めて重要であり、政策の貧弱化は非常にコストがかかる。
本研究では, 一般の連続した環境下での政治外評価のための区間境界を求める方法を提案する。
この考え方は、リプシッツ函数空間上の制約付き最適化問題を解くことにつながる観測と一致する全てのリプシッツ Q-函数の中で、期待される報酬の最大値と最小値を求めることである。
我々は,単調に区間を締め付けるリプシッツ値反復法を導入する。
本稿では,本手法の実用的有効性を示す。
関連論文リスト
- Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。