論文の概要: Projected State-action Balancing Weights for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2109.04640v1
- Date: Fri, 10 Sep 2021 03:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:19:44.008150
- Title: Projected State-action Balancing Weights for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のための状態行動バランス重み推定
- Authors: Jiayi Wang, Zhengling Qi and Raymond K.W. Wong
- Abstract要約: 本稿では,潜在的に異なるポリシから生成された事前収集データに基づいて,対象ポリシーの価値を推定することに焦点を当てる。
政策値推定のための状態-作用バランスウェイトを概算した新しい推定器を提案する。
数値実験により提案した推定器の性能を実証した。
- 参考スコア(独自算出の注目度): 9.732863739456034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline policy evaluation (OPE) is considered a fundamental and challenging
problem in reinforcement learning (RL). This paper focuses on the value
estimation of a target policy based on pre-collected data generated from a
possibly different policy, under the framework of infinite-horizon Markov
decision processes. Motivated by the recently developed marginal importance
sampling method in RL and the covariate balancing idea in causal inference, we
propose a novel estimator with approximately projected state-action balancing
weights for the policy value estimation. We obtain the convergence rate of
these weights, and show that the proposed value estimator is semi-parametric
efficient under technical conditions. In terms of asymptotics, our results
scale with both the number of trajectories and the number of decision points at
each trajectory. As such, consistency can still be achieved with a limited
number of subjects when the number of decision points diverges. In addition, we
make a first attempt towards characterizing the difficulty of OPE problems,
which may be of independent interest. Numerical experiments demonstrate the
promising performance of our proposed estimator.
- Abstract(参考訳): オフライン政策評価(OPE)は強化学習(RL)における基本的な課題である。
本稿では, 無限ホライゾンマルコフ決定過程の枠組みの下で, 潜在的に異なる方針から生成された事前収集データに基づく目標政策の価値推定について述べる。
RLにおける最近開発された限界値サンプリング法と因果推論における共変量バランスのアイデアに動機付けられ,政策値推定のためのおよそ状態-作用バランスの重み付き推定器を提案する。
これらの重みの収束率を求め,提案する値推定器が技術的条件下では半パラメトリック効率であることを示す。
漸近論の観点では,各軌道における軌道数と決定点数の両方について結果がスケールする。
したがって、決定点の数にばらつきがある場合、限定的な数の被写体で一貫性を得ることができる。
さらに, 独立興味を持つかもしれない ope 問題の難易度を特徴付ける最初の試みを行った。
数値実験により提案した推定器の性能を実証した。
関連論文リスト
- Post Reinforcement Learning Inference [22.117487428829488]
強化学習アルゴリズムから収集したデータを用いた推定と推定について検討する。
本稿では,時間変化の分散を安定化させるために,適応重みを慎重に設計した重み付きZ推定手法を提案する。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
論文 参考訳(メタデータ) (2023-02-17T12:53:15Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Low Variance Off-policy Evaluation with State-based Importance Sampling [21.727827944373793]
本稿では, 重みの計算から特定の状態を取り除き, ばらつきを低減できる状態ベース重要度サンプリング推定器を提案する。
4つの領域の実験により、状態ベースの手法は、従来の手法に比べて、ばらつきの低減と精度の向上を一貫して達成していることが示された。
論文 参考訳(メタデータ) (2022-12-07T19:56:11Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Off-Policy Evaluation in Partially Observed Markov Decision Processes
under Sequential Ignorability [8.388782503421504]
逐次的無知下での動的処理規則の非政治的評価を考察する。
我々は,POMDPにおける非政治評価が,(十分に観察された)マルコフ決定過程における非政治評価よりも厳密であることを示す。
論文 参考訳(メタデータ) (2021-10-24T03:35:23Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。