論文の概要: Adaptivity and Confounding in Multi-Armed Bandit Experiments
- arxiv url: http://arxiv.org/abs/2202.09036v1
- Date: Fri, 18 Feb 2022 06:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 20:14:37.816650
- Title: Adaptivity and Confounding in Multi-Armed Bandit Experiments
- Title(参考訳): マルチアーマッドバンド実験における適応性とコンバウンディング
- Authors: Chao Qin and Daniel Russo
- Abstract要約: マルチアームバンディットアルゴリズムは最適な振る舞いに収束するために必要な実験コストを最小化する。
フィードバックが観察されるにつれて、実験の努力を粗悪な行動から遠ざかることによって、彼らはそうする。
例えば、人気のあるバンディットアルゴリズムは、日々の効果が推論を混乱させる可能性がある場合に、最良のアクションを特定するという問題に対処できない点を強調します。
本稿では,トンプソンサンプリングを簡易かつ重要な方法で適用する方法として,トンプソンサンプリングを提案する。
- 参考スコア(独自算出の注目度): 9.76956848885609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-armed bandit algorithms minimize experimentation costs required to
converge on optimal behavior. They do so by rapidly adapting experimentation
effort away from poorly performing actions as feedback is observed. But this
desirable feature makes them sensitive to confounding, which is the primary
concern underlying classical randomized controlled trials. We highlight, for
instance, that popular bandit algorithms cannot address the problem of
identifying the best action when day-of-week effects may confound inferences.
In response, this paper proposes deconfounded Thompson sampling, which makes
simple, but critical, modifications to the way Thompson sampling is usually
applied. Theoretical guarantees suggest the algorithm strikes a delicate
balance between adaptivity and robustness to confounding. It attains asymptotic
lower bounds on the number of samples required to confidently identify the best
action -- suggesting optimal adaptivity -- but also satisfies strong
performance guarantees in the presence of day-of-week effects and delayed
observations -- suggesting unusual robustness. At the core of the paper is a
new model of contextual bandit experiments in which issues of delayed learning
and distribution shift arise organically.
- Abstract(参考訳): マルチアームバンディットアルゴリズムは最適な振る舞いに収束するために必要な実験コストを最小化する。
フィードバックが観察されるにつれて、実験の努力を粗悪な行動から素早く取り除くことで実現します。
しかし、この望ましい機能は、古典的ランダム化制御試行の基礎となる主要な関心事であるコンファウンディングに敏感である。
例えば、人気のあるバンディットアルゴリズムは、日々の効果が推論を混乱させる場合の最良の行動を特定するという問題に対処できない。
そこで本研究では,トンプソンサンプリングを簡易かつ重要な方法で適用する方法として,トンプソンサンプリング(Thompson sample)を提案する。
理論的保証は、アルゴリズムが結合に対する適応性と頑健さの微妙なバランスを取ることを示唆している。
最高の行動(最適な適応性を示す)を確実に特定するために必要なサンプル数について、漸近的に低い限界を達成できる一方で、曜日の影響や観測の遅れの存在下での強いパフォーマンス保証も満たしている。
論文の核となるのは,遅延学習と分布シフトの問題を有機的に発生させるコンテキストバンディット実験の新しいモデルである。
関連論文リスト
- Differentiable Pareto-Smoothed Weighting for High-Dimensional Heterogeneous Treatment Effect Estimation [0.6906005491572401]
重み付き表現学習による数値的ロバストな推定器を開発する。
提案手法は,重み値を効果的に補正することにより,既存手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-04-26T15:34:04Z) - Undersampling and Cumulative Class Re-decision Methods to Improve
Detection of Agitation in People with Dementia [16.949993123698345]
消化は認知症(PwD)で最も多い症状の1つである。
前回の研究では、参加者17名から600日間のマルチモーダルウェアラブルセンサデータを収集し、1分間の窓での動揺を検出する機械学習モデルを開発した。
本稿では,まず,不均衡を解消するために異なるアンダーサンプリング手法を実装し,通常の動作データの20%だけが競合的動揺検出モデルの訓練に適しているという結論に至った。
論文 参考訳(メタデータ) (2023-02-07T03:14:00Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T15:46:06Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Weak Signal Asymptotics for Sequentially Randomized Experiments [2.28438857884398]
マルチアームバンディット問題を解く際に発生するものを含む,逐次ランダム化実験のクラスについて検討する。
一連の逐次ランダム化実験のサンプルパスは拡散限界に弱収束することを示す。
ランダム化確率が観測データに連続的に依存する連続的な実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔に悩まされることを示す。
論文 参考訳(メタデータ) (2021-01-25T02:20:20Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。