論文の概要: Low Variance Off-policy Evaluation with State-based Importance Sampling
- arxiv url: http://arxiv.org/abs/2212.03932v4
- Date: Tue, 2 Jan 2024 20:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:20:01.121701
- Title: Low Variance Off-policy Evaluation with State-based Importance Sampling
- Title(参考訳): 国別重要度サンプリングによる低変数オフ政治評価
- Authors: David M. Bossens and Philip S. Thomas
- Abstract要約: 本稿では,非政治評価のための州別重要度サンプリングを提案する。
これは、通常の重要性サンプリング分散を$O(exp(H))$から$O(exp(X))$に還元する。
- 参考スコア(独自算出の注目度): 25.668550396248474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In off-policy reinforcement learning, a behaviour policy performs exploratory
interactions with the environment to obtain state-action-reward samples which
are then used to learn a target policy that optimises the expected return. This
leads to a problem of off-policy evaluation, where one needs to evaluate the
target policy from samples collected by the often unrelated behaviour policy.
Importance sampling is a traditional statistical technique that is often
applied to off-policy evaluation. While importance sampling estimators are
unbiased, their variance increases exponentially with the horizon of the
decision process due to computing the importance weight as a product of action
probability ratios, yielding estimates with low accuracy for domains involving
long-term planning. This paper proposes state-based importance sampling, which
drops the action probability ratios of sub-trajectories with ``negligible
states'' -- roughly speaking, those for which the chosen actions have no impact
on the return estimate -- from the computation of the importance weight.
Theoretical results show this reduces the ordinary importance sampling variance
from $O(\exp(H))$ to $O(\exp(X))$ where $X < H$ is the largest subtrajectory
with non-negligible states. To identify negligible states, two search
algorithms are proposed, one based on covariance testing and one based on
state-action values. We formulate state-based variants of ordinary importance
sampling, weighted importance sampling, per-decision importance sampling,
incremental importance sampling, doubly robust off-policy evaluation, and
stationary density ratio estimation. Experiments in four distinct domains show
that state-based methods consistently yield reduced variance and improved
accuracy compared to their traditional counterparts.
- Abstract(参考訳): 政治外の強化学習において、行動政策は環境との探索的相互作用を行い、状態-行動-回帰サンプルを取得し、その結果、期待されるリターンを最適化するターゲットポリシーを学ぶのに使用される。
これは、しばしば無関係な行動ポリシーによって収集されたサンプルからターゲットポリシーを評価する必要がある、オフポリシー評価の問題につながる。
重要度サンプリングは伝統的統計手法であり、しばしば政治外評価に適用される。
重要度サンプリング推定器は偏りがないが、その分散は、行動確率比の積として重要度を計算し、長期計画を含む領域に対して低い精度で推定値を得るため、決定過程の水平線とともに指数関数的に増加する。
本稿では,「無視可能な状態」を持つサブトラクタの動作確率比を,大まかに言えば,選択された動作が回帰推定に影響を与えない状態に対して,重要度重みの計算から下げる,状態に基づく重要度サンプリングを提案する。
理論的には、これは通常の重要性サンプリングの分散を$O(\exp(H))$から$O(\exp(X))$に還元することを示している。
無視可能な状態を特定するために、共分散テストと状態動作値に基づく2つの探索アルゴリズムが提案されている。
標準的重要度サンプリング,重み付き重要度サンプリング,分解毎重要度サンプリング,漸進的重要度サンプリング,二重ロバストなオフポリシー評価,定常密度比推定の変種を定式化する。
4つの異なる領域の実験により、状態ベースの手法は、従来の手法に比べて、ばらつきの低減と精度の向上を一貫して達成している。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - State Relevance for Off-Policy Evaluation [29.891687579606277]
我々は, ある状態に関連付けられた確率比を戦略的に省略することにより, ばらつきを低減させる推定器であるOmtting-States-Irrelevant-to-Return Importance Smpling (OSIRIS)を導入する。
我々は、OSIRISが偏りがなく、通常の重要サンプリングよりも分散度が低い条件を定式化する。
論文 参考訳(メタデータ) (2021-09-13T20:40:55Z) - Projected State-action Balancing Weights for Offline Reinforcement
Learning [9.732863739456034]
本稿では,潜在的に異なるポリシから生成された事前収集データに基づいて,対象ポリシーの価値を推定することに焦点を当てる。
政策値推定のための状態-作用バランスウェイトを概算した新しい推定器を提案する。
数値実験により提案した推定器の性能を実証した。
論文 参考訳(メタデータ) (2021-09-10T03:00:44Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。