論文の概要: Low Variance Off-policy Evaluation with State-based Importance Sampling
- arxiv url: http://arxiv.org/abs/2212.03932v1
- Date: Wed, 7 Dec 2022 19:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:47:42.215282
- Title: Low Variance Off-policy Evaluation with State-based Importance Sampling
- Title(参考訳): 国別重要度サンプリングによる低変数オフ政治評価
- Authors: David M. Bossens and Philip Thomas
- Abstract要約: 本稿では,州別重要度サンプリング(SIS)を提案する。
SISは、重み付けの計算から、準軌跡のアクション確率比を「曖昧な状態」に落としている。
状態ベース重要度サンプリングを行う際に、最小限のMSEを有する無視可能な状態集合を特定するために、自動探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.787390511207684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In off-policy reinforcement learning, a behaviour policy performs exploratory
interactions with the environment to obtain state-action-reward samples which
are then used to learn a target policy that optimises the expected return. This
leads to a problem of off-policy evaluation, where one needs to evaluate the
target policy from samples collected by the often unrelated behaviour policy.
Importance sampling is a traditional statistical technique that is often
applied to off-policy evaluation. While importance sampling estimators are
unbiased, their variance increases exponentially with the horizon of the
decision process due to computing the importance weight as a product of action
probability ratios, yielding estimates with low accuracy for domains involving
long-term planning. This paper proposes state-based importance sampling (SIS),
which drops the action probability ratios of sub-trajectories with "neglible
states" -- roughly speaking, those for which the chosen actions have no impact
on the return estimate -- from the computation of the importance weight.
Theoretical results show that this results in a reduction of the exponent in
the variance upper bound as well as improving the mean squared error. An
automated search algorithm based on covariance testing is proposed to identify
a negligible state set which has minimal MSE when performing state-based
importance sampling. Experiments are conducted on a lift domain, which include
"lift states" where the action has no impact on the following state and reward.
The results demonstrate that using the search algorithm, SIS yields reduced
variance and improved accuracy compared to traditional importance sampling,
per-decision importance sampling, and incremental importance sampling.
- Abstract(参考訳): 政治外の強化学習において、行動政策は環境との探索的相互作用を行い、状態-行動-回帰サンプルを取得し、その結果、期待されるリターンを最適化するターゲットポリシーを学ぶのに使用される。
これは、しばしば無関係な行動ポリシーによって収集されたサンプルからターゲットポリシーを評価する必要がある、オフポリシー評価の問題につながる。
重要度サンプリングは伝統的統計手法であり、しばしば政治外評価に適用される。
重要度サンプリング推定器は偏りがないが、その分散は、行動確率比の積として重要度を計算し、長期計画を含む領域に対して低い精度で推定値を得るため、決定過程の水平線とともに指数関数的に増加する。
本稿では,「ネグリブル状態」を伴うサブトラジェクタの動作確率比を,大まかに言えば,選択された動作が回帰推定に影響を与えない状態に対して,重要度重みの計算から低下させる状態に基づく重要度サンプリング(sis)を提案する。
理論的には、この結果は分散上限の指数を減少させ、平均二乗誤差を改善できることを示した。
共分散テストに基づく自動探索アルゴリズムを提案し, 状態に基づく重要度サンプリングを行う際に最小のmseを持つ無視可能な状態集合を同定する。
リフト領域では、アクションが次の状態と報酬に影響を与えない「リフト状態」を含む実験が行われる。
その結果,sisは従来の重要度サンプリング,分解毎重要度サンプリング,インクリメンタル重要度サンプリングに比べて,ばらつきの低減と精度の向上を実現した。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - State Relevance for Off-Policy Evaluation [29.891687579606277]
我々は, ある状態に関連付けられた確率比を戦略的に省略することにより, ばらつきを低減させる推定器であるOmtting-States-Irrelevant-to-Return Importance Smpling (OSIRIS)を導入する。
我々は、OSIRISが偏りがなく、通常の重要サンプリングよりも分散度が低い条件を定式化する。
論文 参考訳(メタデータ) (2021-09-13T20:40:55Z) - Projected State-action Balancing Weights for Offline Reinforcement
Learning [9.732863739456034]
本稿では,潜在的に異なるポリシから生成された事前収集データに基づいて,対象ポリシーの価値を推定することに焦点を当てる。
政策値推定のための状態-作用バランスウェイトを概算した新しい推定器を提案する。
数値実験により提案した推定器の性能を実証した。
論文 参考訳(メタデータ) (2021-09-10T03:00:44Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。