論文の概要: Anytime-valid off-policy inference for contextual bandits
- arxiv url: http://arxiv.org/abs/2210.10768v3
- Date: Thu, 15 Aug 2024 20:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 21:16:11.769532
- Title: Anytime-valid off-policy inference for contextual bandits
- Title(参考訳): 文脈的盗賊に対する任意の有意な政治外推定
- Authors: Ian Waudby-Smith, Lili Wu, Aaditya Ramdas, Nikos Karampatziakis, Paul Mineiro,
- Abstract要約: コンテキストバンディットアルゴリズムは、観測されたコンテキストを$X_t$からアクションにマッピングする。
データの収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を推定することは、しばしば関心がある。
我々は、過去の作業で不要な条件を緩和するOPE推論のための包括的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.721189269616175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandit algorithms are ubiquitous tools for active sequential experimentation in healthcare and the tech industry. They involve online learning algorithms that adaptively learn policies over time to map observed contexts $X_t$ to actions $A_t$ in an attempt to maximize stochastic rewards $R_t$. This adaptivity raises interesting but hard statistical inference questions, especially counterfactual ones: for example, it is often of interest to estimate the properties of a hypothetical policy that is different from the logging policy that was used to collect the data -- a problem known as ``off-policy evaluation'' (OPE). Using modern martingale techniques, we present a comprehensive framework for OPE inference that relax unnecessary conditions made in some past works, significantly improving on them both theoretically and empirically. Importantly, our methods can be employed while the original experiment is still running (that is, not necessarily post-hoc), when the logging policy may be itself changing (due to learning), and even if the context distributions are a highly dependent time-series (such as if they are drifting over time). More concretely, we derive confidence sequences for various functionals of interest in OPE. These include doubly robust ones for time-varying off-policy mean reward values, but also confidence bands for the entire cumulative distribution function of the off-policy reward distribution. All of our methods (a) are valid at arbitrary stopping times (b) only make nonparametric assumptions, (c) do not require importance weights to be uniformly bounded and if they are, we do not need to know these bounds, and (d) adapt to the empirical variance of our estimators. In summary, our methods enable anytime-valid off-policy inference using adaptively collected contextual bandit data.
- Abstract(参考訳): コンテキストバンディットアルゴリズムは、医療やテクノロジー業界で活発に実験するためのユビキタスなツールである。
それらは、時間とともにポリシーを適応的に学習して観測されたコンテキストを、確率的な報酬を最大化するために$X_t$からアクションA_t$にマッピングするオンライン学習アルゴリズムを含んでいる。
例えば、データ収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を見積もるのは、しばしば興味があります -- ‘オフ・ポリティィ・アセスメント’(OPE)と呼ばれる問題です。
現代のマルティンゲール手法を用いて, 過去の研究で不要な条件を緩和し, 理論的にも経験的にも著しく改善するOPE推論の包括的枠組みを提案する。
重要なことは、我々の手法は、元の実験がまだ実行中(つまり、必ずしもポストホックではない)、ロギングポリシー自体が変更されている場合(学習のため)、文脈分布が高度に依存した時系列である場合(例えば、時間が経過してドリフトしている場合など)、使用することができる。
より具体的には、OPEの様々な機能に対する信頼シーケンスを導出する。
これには、時間的に異なるオフポリティ平均報酬値に対する2つの頑健な値だけでなく、オフポリティ平均報酬分布の累積分布関数全体の信頼バンドも含まれる。
あらゆる方法
(a)任意の停止時間で有効である
(b)非パラメトリックな仮定のみを行う。
(c)一様有界となるために重みを必要とせず、もしそうであるなら、これらの有界性を知る必要はなく、
(d)推定者の経験的分散に適応する。
要約すると、我々の手法は、適応的に収集された文脈帯域データを用いて、任意の時価のオフポリティ推論を可能にする。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Chaining Value Functions for Off-Policy Learning [22.54793586116019]
本稿では,建設によって収束する非政治予測アルゴリズムの新たなファミリについて論じる。
提案手法は収束し、逆鍵行列の反復分解に対応することを証明した。
Baird氏の例のようなMDPに挑戦するアイデアを実証的に評価し,好意的な結果が得られた。
論文 参考訳(メタデータ) (2022-01-17T15:26:47Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。