論文の概要: Weak Signal Asymptotics for Sequentially Randomized Experiments
- arxiv url: http://arxiv.org/abs/2101.09855v6
- Date: Sat, 10 Jun 2023 04:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 03:38:58.241482
- Title: Weak Signal Asymptotics for Sequentially Randomized Experiments
- Title(参考訳): 逐次ランダム化実験のための弱信号漸近
- Authors: Xu Kuang and Stefan Wager
- Abstract要約: マルチアームバンディット問題を解く際に発生するものを含む,逐次ランダム化実験のクラスについて検討する。
一連の逐次ランダム化実験のサンプルパスは拡散限界に弱収束することを示す。
ランダム化確率が観測データに連続的に依存する連続的な実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔に悩まされることを示す。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We use the lens of weak signal asymptotics to study a class of sequentially
randomized experiments, including those that arise in solving multi-armed
bandit problems. In an experiment with $n$ time steps, we let the mean reward
gaps between actions scale to the order $1/\sqrt{n}$ so as to preserve the
difficulty of the learning task as $n$ grows. In this regime, we show that the
sample paths of a class of sequentially randomized experiments -- adapted to
this scaling regime and with arm selection probabilities that vary continuously
with state -- converge weakly to a diffusion limit, given as the solution to a
stochastic differential equation. The diffusion limit enables us to derive
refined, instance-specific characterization of stochastic dynamics, and to
obtain several insights on the regret and belief evolution of a number of
sequential experiments including Thompson sampling (but not UCB, which does not
satisfy our continuity assumption). We show that all sequential experiments
whose randomization probabilities have a Lipschitz-continuous dependence on the
observed data suffer from sub-optimal regret performance when the reward gaps
are relatively large. Conversely, we find that a version of Thompson sampling
with an asymptotically uninformative prior variance achieves near-optimal
instance-specific regret scaling, including with large reward gaps, but these
good regret properties come at the cost of highly unstable posterior beliefs.
- Abstract(参考訳): 弱信号漸近のレンズを用いて,複数腕のバンディット問題を解決する際に発生するものを含む,逐次ランダム化実験のクラスを研究する。
n$の時間ステップを持つ実験では、アクション間の平均報酬ギャップを1/\sqrt{n}$にすることで、n$が増加するにつれて学習タスクの難易度を保ちます。
この方法では、逐次ランダム化実験(このスケーリング方式に適合し、状態によって連続的に変化するアーム選択確率を持つ)のサンプルパスが、確率微分方程式の解として与えられた拡散限界に弱収束することを示す。
拡散限界は、確率力学の洗練された例特有な特徴を導出し、トンプソンサンプリングを含む一連の実験の後悔と信念の進化に関するいくつかの洞察を得ることを可能にする(ただし、UCBは我々の連続性仮定を満たさない)。
ランダム化確率が観測データに連続的に依存する全ての連続実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔性能に悩まされることを示す。
逆に,asymptoticly uninformative prior varianceによるトンプソンサンプリングは,報奨ギャップが大きいことを含め,最適に近いインスタンス固有の後悔のスケーリングを実現するが,これらの優れた後悔特性は,極めて不安定な後方信念の犠牲になる。
関連論文リスト
- REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。
核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文 参考訳(メタデータ) (2024-06-11T21:44:49Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Generalized Kernel Ridge Regression for Causal Inference with
Missing-at-Random Sample Selection [3.398662563413433]
非パラメトリック線量応答曲線と半パラメトリック処理効果に対するカーネルリッジ回帰推定器を提案する。
離散処理の場合,ルートnの整合性,ガウス近似,半パラメトリック効率を証明した。
論文 参考訳(メタデータ) (2021-11-09T17:10:49Z) - Efficient Inference Without Trading-off Regret in Bandits: An Allocation
Probability Test for Thompson Sampling [1.6114012813668934]
適応ランダム化実験を行うのにバンドアルゴリズムを用いると、後悔を最小限に抑えることができるが、統計的推測には大きな課題が生じる。
これらの課題に対処しようとする最近の試みは、典型的には、保証を保証するために、B bandit$-$trading off regret$-$-$ 大きなサンプルサイズを必要とする。
バンディットアルゴリズムの割り当て確率に一意的に基づく新しい仮説テストを導入し,その利用性を制限したり,最小限の実験サイズを必要としない。
我々は、我々のアプローチ、特に小さなサンプルにおいて、広範囲なシミュレーションと実際のメンタルヘルスに関する実験の両方において、後悔と推論の利点を実証する。
論文 参考訳(メタデータ) (2021-10-30T01:47:14Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Double Trouble in Double Descent : Bias and Variance(s) in the Lazy
Regime [32.65347128465841]
深層ニューラルネットワークは、トレーニングデータを完璧に補間しながら、素晴らしいパフォーマンスを達成することができる。
バイアス分散トレードオフのU曲線ではなく、テストエラーはしばしば「二重降下」に従う。
我々は、ニューラルネットワークのいわゆる遅延学習システムにおいて、この現象の定量的理論を開発する。
論文 参考訳(メタデータ) (2020-03-02T17:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。