論文の概要: Adaptive Experimentation in the Presence of Exogenous Nonstationary
Variation
- arxiv url: http://arxiv.org/abs/2202.09036v4
- Date: Sat, 26 Aug 2023 16:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 02:02:32.223847
- Title: Adaptive Experimentation in the Presence of Exogenous Nonstationary
Variation
- Title(参考訳): 外因性非定常変動の存在下での適応実験
- Authors: Chao Qin and Daniel Russo
- Abstract要約: マルチアームバンディットアルゴリズムは、ハイパフォーマンスなアームへの計測作業を動的に割り当てることで効率を向上させることができる。
我々は、トンプソンサンプリングアルゴリズムのより堅牢な変種である、分解されたトンプソンサンプリング(DTS)を提案する。
一般的な高信頼度有界アルゴリズムのデコンストラクタが完全にフェール可能であることを示す。
- 参考スコア(独自算出の注目度): 10.66863856524397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate experiments that are designed to select a treatment arm for
population deployment. Multi-armed bandit algorithms can enhance efficiency by
dynamically allocating measurement effort towards higher performing arms based
on observed feedback. However, such dynamics can result in brittle behavior in
the face of nonstationary exogenous factors influencing arms' performance
during the experiment. To counter this, we propose deconfounded Thompson
sampling (DTS), a more robust variant of the prominent Thompson sampling
algorithm. As observations accumulate, DTS projects the population-level
performance of an arm while controlling for the context within which observed
treatment decisions were made. Contexts here might capture a comprehensible
source of variation, such as the country of a treated individual, or simply
record the time of treatment. We provide bounds on both within-experiment and
post-experiment regret of DTS, illustrating its resilience to exogenous
variation and the delicate balance it strikes between exploration and
exploitation. Our proofs leverage inverse propensity weights to analyze the
evolution of the posterior distribution, a departure from established methods
in the literature. Hinting that new understanding is indeed necessary, we show
that a deconfounded variant of the popular upper confidence bound algorithm can
fail completely.
- Abstract(参考訳): 人口展開のための治療用アームの選択を目的とした実験について検討する。
マルチアームバンディットアルゴリズムは、観測されたフィードバックに基づいて、ハイパフォーマンスなアームに対する計測作業を動的に割り当てることで効率を向上させることができる。
しかし、そのような力学は、実験中に腕のパフォーマンスに影響を及ぼす非定常外因性要因に直面する不安定な挙動をもたらす可能性がある。
そこで我々は,著名なトンプソンサンプリングアルゴリズムのよりロバストな変種であるトンプソンサンプリング法(dts)を提案する。
観察が蓄積されるにつれて、DTSは、観察された治療決定が行われたコンテキストを制御しながら、腕の集団レベルのパフォーマンスを予測する。
ここでの文脈は、治療対象の国のような、理解可能な変化源を捉えたり、治療の時間を単に記録したりすることができる。
我々は,実験中および実験後におけるdtsの後悔と,その外因性変異に対する回復力と,探索と搾取の間の微妙なバランスを示す。
本研究の証明は, 後方分布の進化を解析するために, 逆傾向重みを応用し, 文献上の確立された方法から逸脱した。
新たな理解が本当に必要であることを示すため、人気の上位信頼バウンドアルゴリズムのデコングド変種が完全に失敗する可能性があることを示す。
関連論文リスト
- Differentiable Pareto-Smoothed Weighting for High-Dimensional Heterogeneous Treatment Effect Estimation [0.6906005491572401]
重み付き表現学習による数値的ロバストな推定器を開発する。
提案手法は,重み値を効果的に補正することにより,既存手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-04-26T15:34:04Z) - Undersampling and Cumulative Class Re-decision Methods to Improve
Detection of Agitation in People with Dementia [16.949993123698345]
消化は認知症(PwD)で最も多い症状の1つである。
前回の研究では、参加者17名から600日間のマルチモーダルウェアラブルセンサデータを収集し、1分間の窓での動揺を検出する機械学習モデルを開発した。
本稿では,まず,不均衡を解消するために異なるアンダーサンプリング手法を実装し,通常の動作データの20%だけが競合的動揺検出モデルの訓練に適しているという結論に至った。
論文 参考訳(メタデータ) (2023-02-07T03:14:00Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T15:46:06Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Weak Signal Asymptotics for Sequentially Randomized Experiments [2.28438857884398]
マルチアームバンディット問題を解く際に発生するものを含む,逐次ランダム化実験のクラスについて検討する。
一連の逐次ランダム化実験のサンプルパスは拡散限界に弱収束することを示す。
ランダム化確率が観測データに連続的に依存する連続的な実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔に悩まされることを示す。
論文 参考訳(メタデータ) (2021-01-25T02:20:20Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。