論文の概要: Low Variance Off-policy Evaluation with State-based Importance Sampling
- arxiv url: http://arxiv.org/abs/2212.03932v4
- Date: Tue, 2 Jan 2024 20:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:20:01.121701
- Title: Low Variance Off-policy Evaluation with State-based Importance Sampling
- Title(参考訳): 国別重要度サンプリングによる低変数オフ政治評価
- Authors: David M. Bossens and Philip S. Thomas
- Abstract要約: 本稿では,非政治評価のための州別重要度サンプリングを提案する。
これは、通常の重要性サンプリング分散を$O(exp(H))$から$O(exp(X))$に還元する。
- 参考スコア(独自算出の注目度): 25.668550396248474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In off-policy reinforcement learning, a behaviour policy performs exploratory
interactions with the environment to obtain state-action-reward samples which
are then used to learn a target policy that optimises the expected return. This
leads to a problem of off-policy evaluation, where one needs to evaluate the
target policy from samples collected by the often unrelated behaviour policy.
Importance sampling is a traditional statistical technique that is often
applied to off-policy evaluation. While importance sampling estimators are
unbiased, their variance increases exponentially with the horizon of the
decision process due to computing the importance weight as a product of action
probability ratios, yielding estimates with low accuracy for domains involving
long-term planning. This paper proposes state-based importance sampling, which
drops the action probability ratios of sub-trajectories with ``negligible
states'' -- roughly speaking, those for which the chosen actions have no impact
on the return estimate -- from the computation of the importance weight.
Theoretical results show this reduces the ordinary importance sampling variance
from $O(\exp(H))$ to $O(\exp(X))$ where $X < H$ is the largest subtrajectory
with non-negligible states. To identify negligible states, two search
algorithms are proposed, one based on covariance testing and one based on
state-action values. We formulate state-based variants of ordinary importance
sampling, weighted importance sampling, per-decision importance sampling,
incremental importance sampling, doubly robust off-policy evaluation, and
stationary density ratio estimation. Experiments in four distinct domains show
that state-based methods consistently yield reduced variance and improved
accuracy compared to their traditional counterparts.
- Abstract(参考訳): 政治外の強化学習において、行動政策は環境との探索的相互作用を行い、状態-行動-回帰サンプルを取得し、その結果、期待されるリターンを最適化するターゲットポリシーを学ぶのに使用される。
これは、しばしば無関係な行動ポリシーによって収集されたサンプルからターゲットポリシーを評価する必要がある、オフポリシー評価の問題につながる。
重要度サンプリングは伝統的統計手法であり、しばしば政治外評価に適用される。
重要度サンプリング推定器は偏りがないが、その分散は、行動確率比の積として重要度を計算し、長期計画を含む領域に対して低い精度で推定値を得るため、決定過程の水平線とともに指数関数的に増加する。
本稿では,「無視可能な状態」を持つサブトラクタの動作確率比を,大まかに言えば,選択された動作が回帰推定に影響を与えない状態に対して,重要度重みの計算から下げる,状態に基づく重要度サンプリングを提案する。
理論的には、これは通常の重要性サンプリングの分散を$O(\exp(H))$から$O(\exp(X))$に還元することを示している。
無視可能な状態を特定するために、共分散テストと状態動作値に基づく2つの探索アルゴリズムが提案されている。
標準的重要度サンプリング,重み付き重要度サンプリング,分解毎重要度サンプリング,漸進的重要度サンプリング,二重ロバストなオフポリシー評価,定常密度比推定の変種を定式化する。
4つの異なる領域の実験により、状態ベースの手法は、従来の手法に比べて、ばらつきの低減と精度の向上を一貫して達成している。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Robustness Evaluation of Regression Tasks with Skewed Domain Preferences [3.42658286826597]
我々は同時に2つのカプセル化問題に対処する。
まず、一様でない選好が適用される場合の回帰モデルの性能を評価する。
第二に、そのような問題に関連する実際の値の分布に関する不確実性を扱う際のモデルの堅牢性を評価する。
論文 参考訳(メタデータ) (2022-12-15T00:37:41Z) - Accelerated Policy Evaluation: Learning Adversarial Environments with
Adaptive Importance Sampling [19.81658135871748]
安全クリティカルシステムにおけるバイアスまたは不正確な政策評価は、予期せぬ破滅的な失敗を引き起こす可能性がある。
本稿では,稀な事象を同時に発見し,稀な事象の確率を推定するAPE手法を提案する。
APEは、関数近似器を組み込むことにより、大きな離散空間や連続空間にスケーラブルである。
論文 参考訳(メタデータ) (2021-06-19T20:03:26Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。