論文の概要: Inference for Batched Bandits
- arxiv url: http://arxiv.org/abs/2002.03217v3
- Date: Fri, 8 Jan 2021 22:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:30:23.291631
- Title: Inference for Batched Bandits
- Title(参考訳): バッチバンドの推論
- Authors: Kelly W. Zhang, Lucas Janson, Susan A. Murphy
- Abstract要約: そこで我々は,帯域幅アルゴリズムを用いて,バッチで収集したデータに対する推論手法を開発した。
我々はまず、通常最小二乗推定器(OLS)が、一意の最適アームが存在しない場合に、標準バンディットアルゴリズムを用いて収集されたデータに対して不規則に正規であることを証明する。
第2に,Batched OLS 推定器 (BOLS) を導入し,(1) マルチアームとコンテキストバンドの双方から収集したデータに対して正常であり,(2) ベースライン報酬の非定常性に対して頑健であることを示す。
- 参考スコア(独自算出の注目度): 9.468593929311867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As bandit algorithms are increasingly utilized in scientific studies and
industrial applications, there is an associated increasing need for reliable
inference methods based on the resulting adaptively-collected data. In this
work, we develop methods for inference on data collected in batches using a
bandit algorithm. We first prove that the ordinary least squares estimator
(OLS), which is asymptotically normal on independently sampled data, is not
asymptotically normal on data collected using standard bandit algorithms when
there is no unique optimal arm. This asymptotic non-normality result implies
that the naive assumption that the OLS estimator is approximately normal can
lead to Type-1 error inflation and confidence intervals with below-nominal
coverage probabilities. Second, we introduce the Batched OLS estimator (BOLS)
that we prove is (1) asymptotically normal on data collected from both
multi-arm and contextual bandits and (2) robust to non-stationarity in the
baseline reward.
- Abstract(参考訳): バンディットアルゴリズムは科学研究や産業応用にますます活用されているため、適応的に収集されたデータに基づく信頼性の高い推論手法の必要性が高まっている。
本研究では,banditアルゴリズムを用いてバッチに収集したデータに対する推論手法を開発した。
まず, 独立にサンプリングされたデータに対して漸近的に正規の最小二乗推定器(ols)は, 標準バンディットアルゴリズムを用いて収集したデータに対して漸近的に正規ではないことを証明した。
この漸近的非正規性の結果は、ols推定器がほぼ正常であるというナイーブな仮定は、タイプ1の誤差インフレーションと信頼区間を、その下限のカバレッジ確率で導くことができることを示している。
第2に,Batched OLS 推定器 (BOLS) を導入し,(1) マルチアームおよびコンテキストの包帯から収集したデータに対して漸近的に正規であり,(2) ベースライン報酬の非定常性に対して頑健であることを示す。
関連論文リスト
- Sobolev Space Regularised Pre Density Models [51.558848491038916]
本研究では,ソボレフ法則の正則化に基づく非パラメトリック密度推定法を提案する。
この方法は統計的に一貫したものであり、帰納的検証モデルを明確かつ一貫したものにしている。
論文 参考訳(メタデータ) (2023-07-25T18:47:53Z) - Falsification before Extrapolation in Causal Effect Estimation [6.715453431174765]
個体群における因果関係は、しばしば観測データを用いて推定される。
本稿では,偏りのある観測推定を拒否するメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-27T21:47:23Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Statistical Inference with M-Estimators on Bandit Data [11.09729362243947]
バンディットアルゴリズムは、現実世界のシーケンシャルな意思決定問題でますます使われている。
古典的な統計学的アプローチは、バンディットデータで使用する場合、信頼できる信頼区間を提供しない。
論文 参考訳(メタデータ) (2021-04-29T01:56:44Z) - Causal Bandits without prior knowledge using separating sets [3.1000291317725]
カウサル・バンディット(Causal Bandit)は、エージェントがシーケンシャルな意思決定プロセスにおいて最良のアクションを識別しなければならない古典的なバンディット問題の変種である。
これまでの文献で提案されている手法は、完全な因果グラフの正確な事前知識に依存している。
我々は、必ずしも因果知識に依存しない新たな因果バンディットアルゴリズムを定式化する。
論文 参考訳(メタデータ) (2020-09-16T20:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。