論文の概要: Efficient Inference Without Trading-off Regret in Bandits: An Allocation
Probability Test for Thompson Sampling
- arxiv url: http://arxiv.org/abs/2111.00137v1
- Date: Sat, 30 Oct 2021 01:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 11:57:16.597507
- Title: Efficient Inference Without Trading-off Regret in Bandits: An Allocation
Probability Test for Thompson Sampling
- Title(参考訳): バンディットにおけるトレーディングオフ後悔のない効率的な推定:トンプソンサンプリングのための割り当て確率検定
- Authors: Nina Deliu, Joseph J. Williams, Sofia S. Villar
- Abstract要約: 適応ランダム化実験を行うのにバンドアルゴリズムを用いると、後悔を最小限に抑えることができるが、統計的推測には大きな課題が生じる。
これらの課題に対処しようとする最近の試みは、典型的には、保証を保証するために、B bandit$-$trading off regret$-$-$ 大きなサンプルサイズを必要とする。
バンディットアルゴリズムの割り当て確率に一意的に基づく新しい仮説テストを導入し,その利用性を制限したり,最小限の実験サイズを必要としない。
我々は、我々のアプローチ、特に小さなサンプルにおいて、広範囲なシミュレーションと実際のメンタルヘルスに関する実験の両方において、後悔と推論の利点を実証する。
- 参考スコア(独自算出の注目度): 1.6114012813668934
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using bandit algorithms to conduct adaptive randomised experiments can
minimise regret, but it poses major challenges for statistical inference (e.g.,
biased estimators, inflated type-I error and reduced power). Recent attempts to
address these challenges typically impose restrictions on the exploitative
nature of the bandit algorithm$-$trading off regret$-$and require large sample
sizes to ensure asymptotic guarantees. However, large experiments generally
follow a successful pilot study, which is tightly constrained in its size or
duration. Increasing power in such small pilot experiments, without limiting
the adaptive nature of the algorithm, can allow promising interventions to
reach a larger experimental phase. In this work we introduce a novel hypothesis
test, uniquely based on the allocation probabilities of the bandit algorithm,
and without constraining its exploitative nature or requiring a minimum
experimental size. We characterise our $Allocation\ Probability\ Test$ when
applied to $Thompson\ Sampling$, presenting its asymptotic theoretical
properties, and illustrating its finite-sample performances compared to
state-of-the-art approaches. We demonstrate the regret and inferential
advantages of our approach, particularly in small samples, in both extensive
simulations and in a real-world experiment on mental health aspects.
- Abstract(参考訳): 適応ランダム化実験を行うのにバンドアルゴリズムを用いると、後悔を最小限に抑えることができるが、統計的推測(バイアス推定器、インフレーション型I誤差、パワー低下など)には大きな課題が生じる。
これらの課題に対処する最近の試みは、典型的にはバンドイットアルゴリズムの搾取的性質に制限を課すものであり、漸近的な保証を保証するために大きなサンプルサイズを必要とする。
しかし、大きな実験は一般に、その大きさや持続時間に厳しく制約された試験的な研究を成功させる。
このような小さなパイロット実験におけるパワーの増大は、アルゴリズムの適応性を制限することなく、有望な介入がより大きな実験段階に到達することができる。
本研究では,banditアルゴリズムの割り当て確率に一意的に基づいて,その実用性や最小実験サイズを制約することなく,新たな仮説テストを提案する。
私たちは$allocation\ probability\ test$を$thompson\ sampling$に適用し、漸近的な理論特性を示し、最先端のアプローチと比較して有限個の性能を示す。
特に小さなサンプルでは、広範囲なシミュレーションと実際のメンタルヘルスに関する実験の両方において、我々のアプローチの後悔と推論の利点を実証する。
関連論文リスト
- Regret Minimization and Statistical Inference in Online Decision Making with High-dimensional Covariates [7.21848268647674]
我々は、決定のための$varepsilon$-greedybanditアルゴリズムと、疎帯域パラメータを推定するためのハードしきい値アルゴリズムを統合する。
マージン条件下では、我々の手法は、$O(T1/2)$ regret あるいは古典的な$O(T1/2)$-consistent推論のいずれかを達成する。
論文 参考訳(メタデータ) (2024-11-10T01:47:11Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Deep Bandits Show-Off: Simple and Efficient Exploration with Deep
Networks [14.178899938667161]
文脈的包帯に対する簡便かつ効率的な不確実性尺度であるサンプル平均不確実性(SAU)を紹介する。
単純さのため、SAUはエプシロン・グレディ探索の非常にスケーラブルなドロップイン代替として、深い文脈の包帯にシームレスに適用できる。
論文 参考訳(メタデータ) (2021-05-10T21:45:01Z) - Weak Signal Asymptotics for Sequentially Randomized Experiments [2.28438857884398]
マルチアームバンディット問題を解く際に発生するものを含む,逐次ランダム化実験のクラスについて検討する。
一連の逐次ランダム化実験のサンプルパスは拡散限界に弱収束することを示す。
ランダム化確率が観測データに連続的に依存する連続的な実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔に悩まされることを示す。
論文 参考訳(メタデータ) (2021-01-25T02:20:20Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。