論文の概要: Scaling Marginalized Importance Sampling to High-Dimensional
State-Spaces via State Abstraction
- arxiv url: http://arxiv.org/abs/2212.07486v1
- Date: Wed, 14 Dec 2022 20:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:07:41.267023
- Title: Scaling Marginalized Importance Sampling to High-Dimensional
State-Spaces via State Abstraction
- Title(参考訳): 状態抽象化による高次元状態空間へのマージナイズド・インシデンスサンプリングのスケーリング
- Authors: Brahma S. Pavse and Josiah P. Hanna
- Abstract要約: 強化学習(RL)における非政治評価の問題点について考察する。
我々は,高次元状態空間を低次元状態空間に投影することにより,OPE推定器の精度を向上させることを提案する。
- 参考スコア(独自算出の注目度): 5.150752343250592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of off-policy evaluation (OPE) in reinforcement
learning (RL), where the goal is to estimate the performance of an evaluation
policy, $\pi_e$, using a fixed dataset, $\mathcal{D}$, collected by one or more
policies that may be different from $\pi_e$. Current OPE algorithms may produce
poor OPE estimates under policy distribution shift i.e., when the probability
of a particular state-action pair occurring under $\pi_e$ is very different
from the probability of that same pair occurring in $\mathcal{D}$ (Voloshin et
al. 2021, Fu et al. 2021). In this work, we propose to improve the accuracy of
OPE estimators by projecting the high-dimensional state-space into a
low-dimensional state-space using concepts from the state abstraction
literature. Specifically, we consider marginalized importance sampling (MIS)
OPE algorithms which compute state-action distribution correction ratios to
produce their OPE estimate. In the original ground state-space, these ratios
may have high variance which may lead to high variance OPE. However, we prove
that in the lower-dimensional abstract state-space the ratios can have lower
variance resulting in lower variance OPE. We then highlight the challenges that
arise when estimating the abstract ratios from data, identify sufficient
conditions to overcome these issues, and present a minimax optimization problem
whose solution yields these abstract ratios. Finally, our empirical evaluation
on difficult, high-dimensional state-space OPE tasks shows that the abstract
ratios can make MIS OPE estimators achieve lower mean-squared error and more
robust to hyperparameter tuning than the ground ratios.
- Abstract(参考訳): 強化学習(RL)におけるオフ政治評価(OPE)の問題について考察し、その目標は、固定データセットを用いて評価ポリシーの性能を推定することであり、$\pi_e$と異なる1つ以上のポリシーによって収集される$\mathcal{D}$である。
現在のOPEアルゴリズムは、政策分散シフトの下で、例えば、$\pi_e$で発生する特定の状態-作用対の確率が$\mathcal{D}$(Voloshin et al. 2021, Fu et al. 2021)で発生する同じペアの確率とは大きく異なる場合、貧弱なOPE推定を生成する。
本研究では,高次元状態空間を状態抽象文献の概念を用いて低次元状態空間に投影することにより,ope推定器の精度を向上させることを提案する。
具体的には、状態-作用分布補正比を計算し、そのOPE推定値を生成するMISOPEアルゴリズムについて検討する。
元の基底状態空間では、これらの比は高い分散を持ち、高い分散OPEをもたらす可能性がある。
しかし, 低次元抽象状態空間では, 比が低分散 OPE となることが証明された。
次に,データから抽象比率を推定するときに生じる課題を強調し,これらの問題を克服するのに十分な条件を特定し,これらの抽象比率を解くミニマックス最適化問題を提案する。
最後に,困難で高次元な状態空間OPEタスクに対する実験的な評価から,MIS OPE推定器が地上比よりも平均二乗誤差が低く,高パラメータチューニングに頑健であることを示す。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - A Finite-Horizon Approach to Active Level Set Estimation [0.7366405857677227]
レベルセット推定(LSE)における空間サンプリングの文脈におけるアクティブラーニングの問題点について考察する。
1次元でLSEを行うための有限水平探索法を提案するが、最終的な推定誤差と一定数のサンプルの移動距離のバランスは最適である。
結果の最適化問題をクローズドな方法で解き、その結果のポリシーが既存のアプローチを一般化することを示す。
論文 参考訳(メタデータ) (2023-10-18T14:11:41Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - SOPE: Spectrum of Off-Policy Estimators [40.15700429288981]
終端がSISとISである推定器のスペクトルの存在を示す。
本研究は、ISとSISの偏りと分散のトレードオフにこのスペクトルの推定器を使用できるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-11-06T18:29:21Z) - Measuring Model Fairness under Noisy Covariates: A Theoretical
Perspective [26.704446184314506]
本研究では,雑音情報に基づく機械学習モデルの公平性の測定問題について検討する。
本稿では, 精度の高い公平性評価が可能な弱い条件を特徴付けることを目的とした理論的解析を行う。
論文 参考訳(メタデータ) (2021-05-20T18:36:28Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。