論文の概要: Anytime-valid off-policy inference for contextual bandits
- arxiv url: http://arxiv.org/abs/2210.10768v1
- Date: Wed, 19 Oct 2022 17:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:02:52.426404
- Title: Anytime-valid off-policy inference for contextual bandits
- Title(参考訳): 文脈的バンディットに対するanytime-valid off-policy inference
- Authors: Ian Waudby-Smith, Lili Wu, Aaditya Ramdas, Nikos Karampatziakis, and
Paul Mineiro
- Abstract要約: オフ・ポリティィ・アセスメント」は「オフ・ポリティィ・アセスメント(OPE)」として知られる問題である
我々は、過去の作業で多くの不要な仮定を緩和する、OPE推論のための包括的なフレームワークを提案する。
我々は、OPEの様々な機能に対する信頼シーケンスを導出する。
- 参考スコア(独自算出の注目度): 35.92569763743846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandits are a modern staple tool for active sequential
experimentation in the tech industry. They involve online learning algorithms
that adaptively (over time) learn policies to map observed contexts $X_t$ to
actions $A_t$ in an attempt to maximize stochastic rewards $R_t$. This
adaptivity raises interesting but hard statistical inference questions,
especially counterfactual ones: for example, it is often of interest to
estimate the properties of a hypothetical policy that is different from the
logging policy that was used to collect the data -- a problem known as
"off-policy evaluation" (OPE). Using modern martingale techniques, we present a
comprehensive framework for OPE inference that relax many unnecessary
assumptions made in past work, significantly improving on them theoretically
and empirically. Our methods remain valid in very general settings, and can be
employed while the original experiment is still running (that is, not
necessarily post-hoc), when the logging policy may be itself changing (due to
learning), and even if the context distributions are drifting over time. More
concretely, we derive confidence sequences for various functionals of interest
in OPE. These include doubly robust ones for time-varying off-policy mean
reward values, but also confidence bands for the entire CDF of the off-policy
reward distribution. All of our methods (a) are valid at arbitrary stopping
times (b) only make nonparametric assumptions, and (c) do not require known
bounds on the maximal importance weights, and (d) adapt to the empirical
variance of the reward and weight distributions. In summary, our methods enable
anytime-valid off-policy inference using adaptively collected contextual bandit
data.
- Abstract(参考訳): コンテキストバンディットは、テック業界におけるアクティブな逐次実験のための現代的な定型ツールである。
それらは、(時間とともに)適応的に、観測されたコンテキストをアクションにマッピングするポリシーを学習するオンライン学習アルゴリズムを、確率的な報酬を最大化するために、$A_t$にします。
例えば、データ収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を見積もることは、しばしば「オフ・ポリティィ・アセスメント(OPE)」と呼ばれる問題である。
現代のmartingale手法を用いて,過去の作業における多くの不要な仮定を緩和し,理論的および経験的にこれらを著しく改善した,ope推論のための包括的フレームワークを提案する。
私たちのメソッドは、非常に一般的な設定で有効であり、元の実験が実行中(つまり、必ずしもポストホックではない)、ロギングポリシー自体が変更されている場合(学習のため)、コンテキスト分布が時間とともにドリフトしている場合でも、使用できる。
より具体的には、OPEの様々な機能に対する信頼シーケンスを導出する。
これには、時間的に変動するオフポリシーの平均報酬値に対する2倍の堅牢な値だけでなく、オフポリシー報酬分布のcdf全体に対する信頼バンドも含まれる。
あらゆる方法が
(a)任意の停止時間で有効である
(b)非パラメトリックな仮定のみを行い、
(c)最大重要度重みに関する既知の境界を必要とせず、
(d)報酬と重量分布の実証的ばらつきに適応する。
要約すると, 適応的に収集したコンテキストバンディットデータを用いて, 任意の時価オフポリシー推定を可能にする。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Chaining Value Functions for Off-Policy Learning [22.54793586116019]
本稿では,建設によって収束する非政治予測アルゴリズムの新たなファミリについて論じる。
提案手法は収束し、逆鍵行列の反復分解に対応することを証明した。
Baird氏の例のようなMDPに挑戦するアイデアを実証的に評価し,好意的な結果が得られた。
論文 参考訳(メタデータ) (2022-01-17T15:26:47Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。