論文の概要: Distributionally Robust Batch Contextual Bandits
- arxiv url: http://arxiv.org/abs/2006.05630v6
- Date: Tue, 25 Oct 2022 19:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:22:47.454808
- Title: Distributionally Robust Batch Contextual Bandits
- Title(参考訳): 分散ロバストなバッチコンテキストバンディット
- Authors: Nian Si, Fan Zhang, Zhengyuan Zhou, Jose Blanchet
- Abstract要約: 歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
- 参考スコア(独自算出の注目度): 22.134650988502308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy learning using historical observational data is an important problem
that has found widespread applications. Examples include selecting offers,
prices, advertisements to send to customers, as well as selecting which
medication to prescribe to a patient. However, existing literature rests on the
crucial assumption that the future environment where the learned policy will be
deployed is the same as the past environment that has generated the data -- an
assumption that is often false or too coarse an approximation. In this paper,
we lift this assumption and aim to learn a distributionally robust policy with
incomplete observational data. We first present a policy evaluation procedure
that allows us to assess how well the policy does under the worst-case
environment shift. We then establish a central limit theorem type guarantee for
this proposed policy evaluation scheme. Leveraging this evaluation scheme, we
further propose a novel learning algorithm that is able to learn a policy that
is robust to adversarial perturbations and unknown covariate shifts with a
performance guarantee based on the theory of uniform convergence. Finally, we
empirically test the effectiveness of our proposed algorithm in synthetic
datasets and demonstrate that it provides the robustness that is missing using
standard policy learning algorithms. We conclude the paper by providing a
comprehensive application of our methods in the context of a real-world voting
dataset.
- Abstract(参考訳): 歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
例えば、オファーの選択、価格、顧客に送信する広告、患者に処方する薬の選択などだ。
しかし、既存の文献は、学習したポリシーが展開される将来の環境が、データを生成した過去の環境と同じである、という決定的な前提に依存している。
本稿では,この仮定を引き上げ,不完全な観測データを用いて分布的に堅牢な政策を学習することを目的とする。
まず,最悪の環境変化下での政策の健全性を評価するための政策評価手順を提案する。
そこで我々は,提案した政策評価スキームに対して,中心極限定理型保証を確立する。
この評価手法を活用することで,一様収束理論に基づく性能保証とともに,対向的摂動や未知の共変量シフトに頑健な政策を学習できる新しい学習アルゴリズムを提案する。
最後に,提案アルゴリズムの有効性を総合データセットで実験的に検証し,標準ポリシー学習アルゴリズムでは欠落している頑健性を示す。
本論文は,実世界の投票データセットの文脈において,提案手法の包括的応用を提供することで結論づける。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Counterfactual Learning with General Data-generating Policies [3.441021278275805]
我々は、コンテキスト帯域設定における完全なサポートと不足したサポートロギングポリシーのクラスのためのOPE手法を開発した。
サンプルサイズが大きくなるにつれて,本手法の予測値が実測値の真の性能に収束することが証明された。
論文 参考訳(メタデータ) (2022-12-04T21:07:46Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - A Practical Guide of Off-Policy Evaluation for Bandit Problems [13.607327477092877]
オフ政治評価(OPE)とは、異なる政策によって得られたサンプルから対象政策の価値を推定する問題である。
既存のOPE推定器に基づくメタアルゴリズムを提案する。
実験において,人工的およびオープンな実世界のデータセットを用いて提案する概念について検討する。
論文 参考訳(メタデータ) (2020-10-23T15:11:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。