論文の概要: Confidence Interval for Off-Policy Evaluation from Dependent Samples via
Bandit Algorithm: Approach from Standardized Martingales
- arxiv url: http://arxiv.org/abs/2006.06982v1
- Date: Fri, 12 Jun 2020 07:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 03:35:37.687685
- Title: Confidence Interval for Off-Policy Evaluation from Dependent Samples via
Bandit Algorithm: Approach from Standardized Martingales
- Title(参考訳): 帯域アルゴリズムによる依存サンプルのオフポリティ評価のための信頼区間:標準化マルティンガレスからのアプローチ
- Authors: Masahiro Kato
- Abstract要約: OPEの目的は,バンディットアルゴリズムによって生成された行動ポリシーから得られた履歴データを用いて,新しいポリシーを評価することである。
バンディットアルゴリズムは過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同じ分布(すなわちd)である。
OPEのいくつかの既存の手法は、この問題を考慮に入れておらず、サンプルがi.d.であるという仮定に基づいている。
- 参考スコア(独自算出の注目度): 8.807587076209566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses the problem of off-policy evaluation (OPE) from
dependent samples obtained via the bandit algorithm. The goal of OPE is to
evaluate a new policy using historical data obtained from behavior policies
generated by the bandit algorithm. Because the bandit algorithm updates the
policy based on past observations, the samples are not independent and
identically distributed (i.i.d.). However, several existing methods for OPE do
not take this issue into account and are based on the assumption that samples
are i.i.d. In this study, we address this problem by constructing an estimator
from a standardized martingale difference sequence. To standardize the
sequence, we consider using evaluation data or sample splitting with a two-step
estimation. This technique produces an estimator with asymptotic normality
without restricting a class of behavior policies. In an experiment, the
proposed estimator performs better than existing methods, which assume that the
behavior policy converges to a time-invariant policy.
- Abstract(参考訳): 本研究は,banditアルゴリズムによって得られた従属サンプルからのオフポリシー評価(ope)の問題に対処する。
OPEの目的は,バンディットアルゴリズムによって生成された行動ポリシーから得られた履歴データを用いて,新しいポリシーを評価することである。
バンディットアルゴリズムは過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同じ分布(すなわちd)である。
しかし, OPE の既存手法ではこの問題を考慮せず, サンプルが i.d. であるという仮定に基づいており, 本研究では, 標準的なマーチンゲール差分列から推定器を構築することによりこの問題に対処する。
シーケンスを標準化するために,評価データやサンプル分割を2段階推定を用いて検討する。
この手法は行動ポリシーのクラスを制限することなく漸近正規性を持つ推定子を生成する。
実験で提案した推定器は,動作方針が時間不変ポリシーに収束すると仮定した既存手法よりも優れた性能を示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。