論文の概要: Black-box Off-policy Estimation for Infinite-Horizon Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2003.11126v1
- Date: Tue, 24 Mar 2020 21:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:05:40.424666
- Title: Black-box Off-policy Estimation for Infinite-Horizon Reinforcement
Learning
- Title(参考訳): 無限水平強化学習のためのブラックボックスオフポリシー推定
- Authors: Ali Mousavi, Lihong Li, Qiang Liu, Denny Zhou
- Abstract要約: 医療やロボティクスといった多くの現実的な応用において、長期的問題に対するオフ・ポリティクス推定が重要である。
政治外データの収集方法を知らずに定常分布の重要度を算出する新しい推定器を開発した。
- 参考スコア(独自算出の注目度): 26.880437279977155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy estimation for long-horizon problems is important in many
real-life applications such as healthcare and robotics, where high-fidelity
simulators may not be available and on-policy evaluation is expensive or
impossible. Recently, \cite{liu18breaking} proposed an approach that avoids the
\emph{curse of horizon} suffered by typical importance-sampling-based methods.
While showing promising results, this approach is limited in practice as it
requires data be drawn from the \emph{stationary distribution} of a
\emph{known} behavior policy. In this work, we propose a novel approach that
eliminates such limitations. In particular, we formulate the problem as solving
for the fixed point of a certain operator. Using tools from Reproducing Kernel
Hilbert Spaces (RKHSs), we develop a new estimator that computes importance
ratios of stationary distributions, without knowledge of how the off-policy
data are collected. We analyze its asymptotic consistency and finite-sample
generalization. Experiments on benchmarks verify the effectiveness of our
approach.
- Abstract(参考訳): 長期ホリゾン問題に対するオフ・ポリシー推定は、医療やロボティクスのような多くの現実のアプリケーションにおいて重要であり、高忠実度シミュレータが利用できず、オン・ポリシー評価は高価か不可能である。
近ごろ \cite{liu18breaking} は、典型的な重要サンプリングに基づく手法に悩まされる \emph{curse of horizon} を避けるアプローチを提案した。
有望な結果を示す一方で、このアプローチは、実際には、 \emph{known} 行動ポリシーの \emph{stationary distribution} からデータを引き出す必要があるため、制限されている。
本稿では,このような制限をなくすための新しいアプローチを提案する。
特に、ある作用素の固定点の解として問題を定式化する。
再生カーネルヒルベルト・スペースズ (RKHSs) のツールを用いて, 政治外のデータの収集方法を知ることなく, 定常分布の重要度を算出する新しい推定器を開発した。
我々は漸近的一貫性と有限サンプル一般化を解析する。
ベンチマークの実験は、我々のアプローチの有効性を検証する。
関連論文リスト
- A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - High-Dimensional Robust Mean Estimation via Gradient Descent [73.61354272612752]
一定対向分数の存在下でのロバスト平均推定の問題は勾配降下によって解けることを示す。
我々の研究は、近辺の非補題推定とロバスト統計の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2020-05-04T10:48:04Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。