論文の概要: Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy
- arxiv url: http://arxiv.org/abs/2010.13554v1
- Date: Fri, 23 Oct 2020 15:22:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:27:20.481665
- Title: Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy
- Title(参考訳): バッチ更新ポリシー下における従属サンプルからのバンディットアルゴリズムのオフポリシー評価
- Authors: Masahiro Kato and Yusuke Kaneko
- Abstract要約: オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
- 参考スコア(独自算出の注目度): 8.807587076209566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of off-policy evaluation (OPE) is to evaluate a new policy using
historical data obtained via a behavior policy. However, because the contextual
bandit algorithm updates the policy based on past observations, the samples are
not independent and identically distributed (i.i.d.). This paper tackles this
problem by constructing an estimator from a martingale difference sequence
(MDS) for the dependent samples. In the data-generating process, we do not
assume the convergence of the policy, but the policy uses the same conditional
probability of choosing an action during a certain period. Then, we derive an
asymptotically normal estimator of the value of an evaluation policy. As
another advantage of our method, the batch-based approach simultaneously solves
the deficient support problem. Using benchmark and real-world datasets, we
experimentally confirm the effectiveness of the proposed method.
- Abstract(参考訳): オフ政治評価(OPE)の目標は,行動政策を通じて得られた履歴データを用いて,新たな政策を評価することである。
しかし、文脈的バンディットアルゴリズムは過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分散している(すなわち、d)。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することでこの問題に対処する。
データ生成プロセスでは、ポリシーの収束は想定していないが、ポリシーは特定の期間にアクションを選択する条件付き確率と同じものである。
次に,評価政策の価値を漸近的に正規に推定する指標を導出する。
本手法のもう1つの利点として,バッチベースのアプローチは不足するサポート問題を同時に解決する。
ベンチマークと実世界のデータセットを用いて,提案手法の有効性を実験的に検証した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Confidence Interval for Off-Policy Evaluation from Dependent Samples via
Bandit Algorithm: Approach from Standardized Martingales [8.807587076209566]
OPEの目的は,バンディットアルゴリズムによって生成された行動ポリシーから得られた履歴データを用いて,新しいポリシーを評価することである。
バンディットアルゴリズムは過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同じ分布(すなわちd)である。
OPEのいくつかの既存の手法は、この問題を考慮に入れておらず、サンプルがi.d.であるという仮定に基づいている。
論文 参考訳(メタデータ) (2020-06-12T07:48:04Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。