論文の概要: Low Variance Off-policy Evaluation with State-based Importance Sampling
- arxiv url: http://arxiv.org/abs/2212.03932v1
- Date: Wed, 7 Dec 2022 19:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:47:42.215282
- Title: Low Variance Off-policy Evaluation with State-based Importance Sampling
- Title(参考訳): 国別重要度サンプリングによる低変数オフ政治評価
- Authors: David M. Bossens and Philip Thomas
- Abstract要約: 本稿では,州別重要度サンプリング(SIS)を提案する。
SISは、重み付けの計算から、準軌跡のアクション確率比を「曖昧な状態」に落としている。
状態ベース重要度サンプリングを行う際に、最小限のMSEを有する無視可能な状態集合を特定するために、自動探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.787390511207684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In off-policy reinforcement learning, a behaviour policy performs exploratory
interactions with the environment to obtain state-action-reward samples which
are then used to learn a target policy that optimises the expected return. This
leads to a problem of off-policy evaluation, where one needs to evaluate the
target policy from samples collected by the often unrelated behaviour policy.
Importance sampling is a traditional statistical technique that is often
applied to off-policy evaluation. While importance sampling estimators are
unbiased, their variance increases exponentially with the horizon of the
decision process due to computing the importance weight as a product of action
probability ratios, yielding estimates with low accuracy for domains involving
long-term planning. This paper proposes state-based importance sampling (SIS),
which drops the action probability ratios of sub-trajectories with "neglible
states" -- roughly speaking, those for which the chosen actions have no impact
on the return estimate -- from the computation of the importance weight.
Theoretical results show that this results in a reduction of the exponent in
the variance upper bound as well as improving the mean squared error. An
automated search algorithm based on covariance testing is proposed to identify
a negligible state set which has minimal MSE when performing state-based
importance sampling. Experiments are conducted on a lift domain, which include
"lift states" where the action has no impact on the following state and reward.
The results demonstrate that using the search algorithm, SIS yields reduced
variance and improved accuracy compared to traditional importance sampling,
per-decision importance sampling, and incremental importance sampling.
- Abstract(参考訳): 政治外の強化学習において、行動政策は環境との探索的相互作用を行い、状態-行動-回帰サンプルを取得し、その結果、期待されるリターンを最適化するターゲットポリシーを学ぶのに使用される。
これは、しばしば無関係な行動ポリシーによって収集されたサンプルからターゲットポリシーを評価する必要がある、オフポリシー評価の問題につながる。
重要度サンプリングは伝統的統計手法であり、しばしば政治外評価に適用される。
重要度サンプリング推定器は偏りがないが、その分散は、行動確率比の積として重要度を計算し、長期計画を含む領域に対して低い精度で推定値を得るため、決定過程の水平線とともに指数関数的に増加する。
本稿では,「ネグリブル状態」を伴うサブトラジェクタの動作確率比を,大まかに言えば,選択された動作が回帰推定に影響を与えない状態に対して,重要度重みの計算から低下させる状態に基づく重要度サンプリング(sis)を提案する。
理論的には、この結果は分散上限の指数を減少させ、平均二乗誤差を改善できることを示した。
共分散テストに基づく自動探索アルゴリズムを提案し, 状態に基づく重要度サンプリングを行う際に最小のmseを持つ無視可能な状態集合を同定する。
リフト領域では、アクションが次の状態と報酬に影響を与えない「リフト状態」を含む実験が行われる。
その結果,sisは従来の重要度サンプリング,分解毎重要度サンプリング,インクリメンタル重要度サンプリングに比べて,ばらつきの低減と精度の向上を実現した。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Robustness Evaluation of Regression Tasks with Skewed Domain Preferences [3.42658286826597]
我々は同時に2つのカプセル化問題に対処する。
まず、一様でない選好が適用される場合の回帰モデルの性能を評価する。
第二に、そのような問題に関連する実際の値の分布に関する不確実性を扱う際のモデルの堅牢性を評価する。
論文 参考訳(メタデータ) (2022-12-15T00:37:41Z) - Accelerated Policy Evaluation: Learning Adversarial Environments with
Adaptive Importance Sampling [19.81658135871748]
安全クリティカルシステムにおけるバイアスまたは不正確な政策評価は、予期せぬ破滅的な失敗を引き起こす可能性がある。
本稿では,稀な事象を同時に発見し,稀な事象の確率を推定するAPE手法を提案する。
APEは、関数近似器を組み込むことにより、大きな離散空間や連続空間にスケーラブルである。
論文 参考訳(メタデータ) (2021-06-19T20:03:26Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。