論文の概要: $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control
- arxiv url: http://arxiv.org/abs/2306.04836v1
- Date: Wed, 7 Jun 2023 23:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:03:00.719486
- Title: $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control
- Title(参考訳): 確率制御におけるオフポリシー評価のための$k$-nearest-neighbor再サンプリング
- Authors: Michael Giegrich, Roel Oomen, Christoph Reisinger
- Abstract要約: 我々は、連続した状態-行動空間を持つ環境における現在の状態に決定的に依存するフィードバックポリシーに焦点を当てる。
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人再サンプリング手法を提案する。
我々は,提案手法が弱い仮定の下でのOPE設定におけるポリシーの性能を統計的に一貫した評価値であることが証明された。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel $K$-nearest neighbor resampling procedure for estimating
the performance of a policy from historical data containing realized episodes
of a decision process generated under a different policy. We focus on feedback
policies that depend deterministically on the current state in environments
with continuous state-action spaces and system-inherent stochasticity effected
by chosen actions. Such settings are common in a wide range of high-stake
applications and are actively investigated in the context of stochastic
control. Our procedure exploits that similar state/action pairs (in a metric
sense) are associated with similar rewards and state transitions. This enables
our resampling procedure to tackle the counterfactual estimation problem
underlying off-policy evaluation (OPE) by simulating trajectories similarly to
Monte Carlo methods. Compared to other OPE methods, our algorithm does not
require optimization, can be efficiently implemented via tree-based nearest
neighbor search and parallelization and does not explicitly assume a parametric
model for the environment's dynamics. These properties make the proposed
resampling algorithm particularly useful for stochastic control environments.
We prove that our method is statistically consistent in estimating the
performance of a policy in the OPE setting under weak assumptions and for data
sets containing entire episodes rather than independent transitions. To
establish the consistency, we generalize Stone's Theorem, a well-known result
in nonparametric statistics on local averaging, to include episodic data and
the counterfactual estimation underlying OPE. Numerical experiments demonstrate
the effectiveness of the algorithm in a variety of stochastic control settings
including a linear quadratic regulator, trade execution in limit order books
and online stochastic bin packing.
- Abstract(参考訳): 異なる方針の下で生成された決定過程のエピソードを含む履歴データから、政策のパフォーマンスを推定するための新しい$k$-nearest neighbor resampling手順を提案する。
我々は,連続的な状態行動空間と選択された行動によって引き起こされるシステムインヒーレント確率性を有する環境における現状に決定論的に依存するフィードバックポリシーに注目した。
このような設定は広範囲の高スループットアプリケーションで一般的であり、確率的制御の文脈で積極的に研究されている。
我々の手順は、類似の状態/作用対(計量的な意味で)が同様の報酬や状態遷移と関連していることを悪用する。
これにより,モンテカルロ法と同様に軌道をシミュレートすることで,オフポリシー評価(ope)に基づく反事実推定問題に対処することができる。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
これらの性質により,提案手法は確率制御環境に特に有用である。
本手法は,弱い前提条件下でのOPE設定におけるポリシーの性能と,独立した遷移ではなくエピソード全体を含むデータセットに対して,統計的に一貫性があることを実証する。
整合性を確立するために,局所平均化に関する非パラメトリック統計学の有名な結果であるストーンの定理を一般化し,エピソードデータとOPEに基づく反実推定を含む。
数値実験により,線形2次制御器,リミットオーダーブックでの取引実行,オンライン確率ビンパッキングなど,様々な確率制御設定におけるアルゴリズムの有効性が示された。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Wasserstein Distributionally Robust Policy Evaluation and Learning for
Contextual Bandits [18.982448033389588]
オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことに関するものである。
学習と実行における異なる環境の影響を考慮するため,分散ロバスト最適化法(DRO)が開発されている。
代わりにワッサーシュタイン距離を用いた新しいDRO手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T20:21:46Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。