論文の概要: On Under-exploration in Bandits with Mean Bounds from Confounded Data
- arxiv url: http://arxiv.org/abs/2002.08405v4
- Date: Thu, 10 Jun 2021 14:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:17:09.717525
- Title: On Under-exploration in Bandits with Mean Bounds from Confounded Data
- Title(参考訳): 既設データから平均境界を持つ帯域の地下探査について
- Authors: Nihal Sharma, Soumya Basu, Karthikeyan Shanmugam and Sanjay Shakkottai
- Abstract要約: 本稿では,各アームの平均値に有界な側面情報を提供するマルチアームバンディット問題の変種について検討する。
我々は,提案した平均値を用いた非最適グローバルアンダーエクスプローラー(GLUE)アルゴリズムを開発した。
このようなログから平均境界を自然に推定することができ、それによって学習プロセスを改善することができることを示す。
- 参考スコア(独自算出の注目度): 41.09427248084205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a variant of the multi-armed bandit problem where side information
in the form of bounds on the mean of each arm is provided. We develop the novel
non-optimistic Global Under-Explore (GLUE) algorithm which uses the provided
mean bounds (across all the arms) to infer pseudo-variances for each arm, which
in turn decide the rate of exploration for the arms. We analyze the regret of
GLUE and prove regret upper bounds that are never worse than that of the
standard UCB algorithm. Furthermore, we show that GLUE improves upon regret
guarantees that exists in literature for structured bandit problems (both
theoretically and empirically). Finally, we study the practical setting of
learning adaptive interventions using prior data that has been confounded by
unrecorded variables that affect rewards. We show that mean bounds can be
inferred naturally from such logs and can thus be used to improve the learning
process. We validate our findings through semi-synthetic experiments on data
derived from real data sets.
- Abstract(参考訳): 本研究では,各アームの平均値のバウンド形式でのサイド情報を提供するマルチアームバンディット問題の変種について検討する。
我々は,与えられた平均境界(すべてのアームを横切る)を用いて各アームの擬似分散を推定し,アームの探索率を決定する,新しい非最適化グローバルアンダーエクスプローラー(glue)アルゴリズムを開発した。
我々は,GLUEの後悔を解析し,通常の UCB アルゴリズムよりも悪くないような,後悔すべき上限を証明した。
さらに,構造的バンディット問題(理論上,経験上)に対する文献上に存在する後悔の保証によりグルーが改善することを示す。
最後に,報奨に影響を及ぼす未記録変数が組み合わさった事前データを用いて,適応的介入の学習の実践的設定について検討する。
このようなログから平均境界を自然に推測し,学習プロセスを改善するために使用できることを示す。
本研究は,実データから得られたデータに対する半合成実験により検証した。
関連論文リスト
- Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。