論文の概要: $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control
- arxiv url: http://arxiv.org/abs/2306.04836v2
- Date: Wed, 10 Jan 2024 09:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 17:46:10.863975
- Title: $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control
- Title(参考訳): 確率制御におけるオフポリシー評価のための$k$-nearest-neighbor再サンプリング
- Authors: Michael Giegrich, Roel Oomen, Christoph Reisinger
- Abstract要約: 歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel $K$-nearest neighbor resampling procedure
for estimating the performance of a policy from historical data containing
realized episodes of a decision process generated under a different policy. We
provide statistical consistency results under weak conditions. In particular,
we avoid the common assumption of identically and independently distributed
transitions and rewards. Instead, our analysis allows for the sampling of
entire episodes, as is common practice in most applications. To establish the
consistency in this setting, we generalize Stone's Theorem, a well-known result
in nonparametric statistics on local averaging, to include episodic data and
the counterfactual estimation underlying off-policy evaluation (OPE). By
focusing on feedback policies that depend deterministically on the current
state in environments with continuous state-action spaces and system-inherent
stochasticity effected by chosen actions, and relying on trajectory simulation
similar to Monte Carlo methods, the proposed method is particularly well suited
for stochastic control environments. Compared to other OPE methods, our
algorithm does not require optimization, can be efficiently implemented via
tree-based nearest neighbor search and parallelization, and does not explicitly
assume a parametric model for the environment's dynamics. Numerical experiments
demonstrate the effectiveness of the algorithm compared to existing baselines
in a variety of stochastic control settings, including a linear quadratic
regulator, trade execution in limit order books, and online stochastic bin
packing.
- Abstract(参考訳): 本稿では,異なる方針の下で発生した決定過程の達成されたエピソードを含む履歴データから,政策の性能を推定するための新しい$k$-nearest neighbor resampling手順を提案する。
弱い条件下で統計的に整合性を示す。
特に、同一かつ独立に分散したトランジションと報酬の一般的な仮定を避ける。
代わりに、我々の分析は、ほとんどのアプリケーションでよくあるプラクティスのように、エピソード全体のサンプリングを可能にします。
この設定における一貫性を確立するために、局所平均化に関する非パラメトリック統計学の有名な結果であるストーンの定理を一般化し、エピソードデータと、オフ・ポリティ・アセスメント(OPE)に基づく対実推定を含む。
提案手法は, 連続的な状態行動空間と, 選択された動作によって影響されるシステム固有の確率性を有する環境における現状に決定的に依存するフィードバックポリシに着目し, モンテカルロ法に類似した軌道シミュレーションに依存することにより, 確率制御環境に特に適している。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
数値実験により, 線形2次制御器, リミットオーダーブックでの取引実行, オンライン確率ビンパッキングなど, 様々な確率制御設定において, 既存のベースラインと比較して, アルゴリズムの有効性が示された。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Wasserstein Distributionally Robust Policy Evaluation and Learning for
Contextual Bandits [18.982448033389588]
オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことに関するものである。
学習と実行における異なる環境の影響を考慮するため,分散ロバスト最適化法(DRO)が開発されている。
代わりにワッサーシュタイン距離を用いた新しいDRO手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T20:21:46Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。