論文の概要: Statistical Inference with M-Estimators on Bandit Data
- arxiv url: http://arxiv.org/abs/2104.14074v1
- Date: Thu, 29 Apr 2021 01:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 00:04:18.280446
- Title: Statistical Inference with M-Estimators on Bandit Data
- Title(参考訳): 帯域データに基づくM推定器の統計的推測
- Authors: Kelly W. Zhang, Lucas Janson, and Susan A. Murphy
- Abstract要約: バンディットアルゴリズムは、現実世界のシーケンシャルな意思決定問題でますます使われている。
古典的な統計学的アプローチは、バンディットデータで使用する場合、信頼できる信頼区間を提供しない。
- 参考スコア(独自算出の注目度): 11.09729362243947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bandit algorithms are increasingly used in real world sequential decision
making problems, from online advertising to mobile health. As a result, there
are more datasets collected using bandit algorithms and with that an increased
desire to be able to use these datasets to answer scientific questions like:
Did one type of ad increase the click-through rate more or lead to more
purchases? In which contexts is a mobile health intervention effective?
However, it has been shown that classical statistical approaches, like those
based on the ordinary least squares estimator, fail to provide reliable
confidence intervals when used with bandit data. Recently methods have been
developed to conduct statistical inference using simple models fit to data
collected with multi-armed bandits. However there is a lack of general methods
for conducting statistical inference using more complex models. In this work,
we develop theory justifying the use of M-estimation (Van der Vaart, 2000),
traditionally used with i.i.d data, to provide inferential methods for a large
class of estimators -- including least squares and maximum likelihood
estimators -- but now with data collected with (contextual) bandit algorithms.
To do this we generalize the use of adaptive weights pioneered by Hadad et al.
(2019) and Deshpande et al. (2018). Specifically, in settings in which the data
is collected via a (contextual) bandit algorithm, we prove that certain
adaptively weighted M-estimators are uniformly asymptotically normal and
demonstrate empirically that we can use their asymptotic distribution to
construct reliable confidence regions for a variety of inferential targets.
- Abstract(参考訳): banditアルゴリズムは、オンライン広告からモバイルの健康に至るまで、現実世界の逐次意思決定問題でますます使われている。
その結果、バンディットアルゴリズムを使って収集されたデータセットが増えており、これらのデータセットを使用して科学的質問に答えたいという願望が高まっている。
モバイルヘルス介入はどのような文脈で有効か?
しかしながら、通常の最小二乗推定値に基づくような古典的な統計的アプローチでは、バンディットデータで使用する場合の信頼性の高い信頼区間を提供できないことが示されている。
近年,マルチアームバンディットで収集したデータに適合する単純なモデルを用いて統計的推測を行う手法が開発されている。
しかし、より複雑なモデルを用いて統計的推論を行う一般的な方法がない。
本研究では,従来i.i.dデータで用いられてきたm推定法(van der vaart, 2000)を用いて,最小二乗法や最大ラピッド推定法を含む,多種多様な推定法を提供する理論を構築し,現在では(文脈的)バンディットアルゴリズムを用いて収集する。
これを実現するために、Hadadらによって先駆けられた適応重みの使用を一般化する。
(2019年)とDeshpande et al。
(2018).
具体的には,適応重み付けされたM推定器が一様に漸近的に正常であることを証明し,その漸近分布を用いて様々な推定対象に対して信頼性の高い信頼領域を構築することができることを実証する。
関連論文リスト
- Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Statistical Inference with Stochastic Gradient Methods under
$\phi$-mixing Data [9.77185962310918]
データが$phi$-mixingの場合の統計的推測のためのミニバッチSGD推定器を提案する。
信頼区間は、関連するミニバッチSGDプロシージャを用いて構成される。
提案手法はメモリ効率が高く,実装が容易である。
論文 参考訳(メタデータ) (2023-02-24T16:16:43Z) - Online Statistical Inference for Matrix Contextual Bandit [3.465827582464433]
文脈的帯域幅は、文脈情報と歴史的フィードバックデータに基づく逐次的意思決定に広く利用されている。
我々は、両方のバイアス源を同時に扱うために、新しいオンライン二重バイアス推論手法を導入する。
提案手法は, 新たに開発された低ランク勾配勾配推定器とその非漸近収束結果に基づく。
論文 参考訳(メタデータ) (2022-12-21T22:03:06Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Inference for Batched Bandits [9.468593929311867]
そこで我々は,帯域幅アルゴリズムを用いて,バッチで収集したデータに対する推論手法を開発した。
我々はまず、通常最小二乗推定器(OLS)が、一意の最適アームが存在しない場合に、標準バンディットアルゴリズムを用いて収集されたデータに対して不規則に正規であることを証明する。
第2に,Batched OLS 推定器 (BOLS) を導入し,(1) マルチアームとコンテキストバンドの双方から収集したデータに対して正常であり,(2) ベースライン報酬の非定常性に対して頑健であることを示す。
論文 参考訳(メタデータ) (2020-02-08T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。