論文の概要: Low Variance Off-policy Evaluation with State-based Importance Sampling
- arxiv url: http://arxiv.org/abs/2212.03932v3
- Date: Thu, 13 Apr 2023 23:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 16:36:24.213220
- Title: Low Variance Off-policy Evaluation with State-based Importance Sampling
- Title(参考訳): 国別重要度サンプリングによる低変数オフ政治評価
- Authors: David M. Bossens and Philip S. Thomas
- Abstract要約: 本稿では,長期計画領域における状態ベース重要度サンプリング(SIS)を提案する。
SISは、重みの計算から「無視可能な状態」を持つ部分軌道の作用確率比を下げる。
2つのグリッドワールドドメインと1つのインベントリ管理ドメインの実験は、状態ベースの手法が分散の低減と精度の向上をもたらすことを示している。
- 参考スコア(独自算出の注目度): 30.679338613874652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In off-policy reinforcement learning, a behaviour policy performs exploratory
interactions with the environment to obtain state-action-reward samples which
are then used to learn a target policy that optimises the expected return. This
leads to a problem of off-policy evaluation, where one needs to evaluate the
target policy from samples collected by the often unrelated behaviour policy.
Importance sampling is a traditional statistical technique that is often
applied to off-policy evaluation. While importance sampling estimators are
unbiased, their variance increases exponentially with the horizon of the
decision process due to computing the importance weight as a product of action
probability ratios, yielding estimates with low accuracy for domains involving
long-term planning. This paper proposes state-based importance sampling (SIS),
which drops the action probability ratios of sub-trajectories with "negligible
states" -- roughly speaking, those for which the chosen actions have no impact
on the return estimate -- from the computation of the importance weight.
Theoretical results demonstrate a smaller exponent for the variance upper bound
as well as a lower mean squared error. To identify negligible states, two
search algorithms are proposed, one based on covariance testing and one based
on state-action values. Using the formulation of SIS, we then analogously
formulate state-based variants of weighted importance sampling, per-decision
importance sampling, and incremental importance sampling based on the
state-action value identification algorithm. Moreover, we note that doubly
robust estimators may also benefit from SIS. Experiments in two gridworld
domains and one inventory management domain show that state-based methods yield
reduced variance and improved accuracy.
- Abstract(参考訳): 政治外の強化学習において、行動政策は環境との探索的相互作用を行い、状態-行動-回帰サンプルを取得し、その結果、期待されるリターンを最適化するターゲットポリシーを学ぶのに使用される。
これは、しばしば無関係な行動ポリシーによって収集されたサンプルからターゲットポリシーを評価する必要がある、オフポリシー評価の問題につながる。
重要度サンプリングは伝統的統計手法であり、しばしば政治外評価に適用される。
重要度サンプリング推定器は偏りがないが、その分散は、行動確率比の積として重要度を計算し、長期計画を含む領域に対して低い精度で推定値を得るため、決定過程の水平線とともに指数関数的に増加する。
本稿では,重要度重みの計算から,選択された動作が回帰推定に影響を与えない「無視可能な状態」を持つサブトラジェクタの動作確率比を低下させる状態に基づく重要度サンプリング(sis)を提案する。
理論的結果は、分散上界に対するより小さな指数と低い平均二乗誤差を示す。
無視可能な状態を特定するために、共分散テストと状態動作値に基づく2つの探索アルゴリズムが提案されている。
SISの定式化を用いて、重み付けされた重要度サンプリング、決定単位の重要度サンプリング、および状態-作用値同定アルゴリズムに基づく漸進的な重要度サンプリングを類似的に定式化する。
さらに、二重頑健な推定器もSISの恩恵を受ける可能性があることに留意する。
2つのグリッドワールドドメインと1つのインベントリ管理ドメインの実験は、状態ベースの手法が分散の低減と精度の向上をもたらすことを示している。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - State Relevance for Off-Policy Evaluation [29.891687579606277]
我々は, ある状態に関連付けられた確率比を戦略的に省略することにより, ばらつきを低減させる推定器であるOmtting-States-Irrelevant-to-Return Importance Smpling (OSIRIS)を導入する。
我々は、OSIRISが偏りがなく、通常の重要サンプリングよりも分散度が低い条件を定式化する。
論文 参考訳(メタデータ) (2021-09-13T20:40:55Z) - Projected State-action Balancing Weights for Offline Reinforcement
Learning [9.732863739456034]
本稿では,潜在的に異なるポリシから生成された事前収集データに基づいて,対象ポリシーの価値を推定することに焦点を当てる。
政策値推定のための状態-作用バランスウェイトを概算した新しい推定器を提案する。
数値実験により提案した推定器の性能を実証した。
論文 参考訳(メタデータ) (2021-09-10T03:00:44Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。