Fugu-MT 論文翻訳(概要): On Under-exploration in Bandits with Mean Bounds from Confounded Data

論文の概要: On Under-exploration in Bandits with Mean Bounds from Confounded Data

arxiv url: http://arxiv.org/abs/2002.08405v4
Date: Thu, 10 Jun 2021 14:55:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-30 13:17:09.717525
Title: On Under-exploration in Bandits with Mean Bounds from Confounded Data
Title（参考訳）: 既設データから平均境界を持つ帯域の地下探査について
Authors: Nihal Sharma, Soumya Basu, Karthikeyan Shanmugam and Sanjay Shakkottai
Abstract要約: 本稿では,各アームの平均値に有界な側面情報を提供するマルチアームバンディット問題の変種について検討する。我々は,提案した平均値を用いた非最適グローバルアンダーエクスプローラー(GLUE)アルゴリズムを開発した。このようなログから平均境界を自然に推定することができ、それによって学習プロセスを改善することができることを示す。
参考スコア（独自算出の注目度）: 41.09427248084205
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study a variant of the multi-armed bandit problem where side information in the form of bounds on the mean of each arm is provided. We develop the novel non-optimistic Global Under-Explore (GLUE) algorithm which uses the provided mean bounds (across all the arms) to infer pseudo-variances for each arm, which in turn decide the rate of exploration for the arms. We analyze the regret of GLUE and prove regret upper bounds that are never worse than that of the standard UCB algorithm. Furthermore, we show that GLUE improves upon regret guarantees that exists in literature for structured bandit problems (both theoretically and empirically). Finally, we study the practical setting of learning adaptive interventions using prior data that has been confounded by unrecorded variables that affect rewards. We show that mean bounds can be inferred naturally from such logs and can thus be used to improve the learning process. We validate our findings through semi-synthetic experiments on data derived from real data sets.
Abstract（参考訳）: 本研究では,各アームの平均値のバウンド形式でのサイド情報を提供するマルチアームバンディット問題の変種について検討する。我々は,与えられた平均境界(すべてのアームを横切る)を用いて各アームの擬似分散を推定し,アームの探索率を決定する,新しい非最適化グローバルアンダーエクスプローラー(glue)アルゴリズムを開発した。我々は,GLUEの後悔を解析し,通常の UCB アルゴリズムよりも悪くないような,後悔すべき上限を証明した。さらに,構造的バンディット問題(理論上,経験上)に対する文献上に存在する後悔の保証によりグルーが改善することを示す。最後に,報奨に影響を及ぼす未記録変数が組み合わさった事前データを用いて,適応的介入の学習の実践的設定について検討する。このようなログから平均境界を自然に推測し,学習プロセスを改善するために使用できることを示す。本研究は,実データから得られたデータに対する半合成実験により検証した。

関連論文リスト

Causal bandits with backdoor adjustment on unknown Gaussian DAGs [5.807183284468881]
グラフ構造が不明な場合の因果帯域問題について検討する。連続的に生成された実験データと観測データを用いて各アームのバックドア調整セットを同定する。最適介入を逐次決定するために,修正された上位信頼境界に基づく新しい帯域幅アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-02-04T05:18:35Z)
Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文参考訳（メタデータ） (2024-10-24T15:26:14Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文参考訳（メタデータ） (2023-06-15T15:37:31Z)
From Optimality to Robustness: Dirichlet Sampling Strategies in Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文参考訳（メタデータ） (2021-11-18T14:34:21Z)
Mean-based Best Arm Identification in Stochastic Bandits under Reward Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文参考訳（メタデータ） (2021-11-14T21:49:58Z)
A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文参考訳（メタデータ） (2021-08-25T17:09:01Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)
An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文参考訳（メタデータ） (2020-10-23T09:12:47Z)
Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文参考訳（メタデータ） (2020-06-17T04:23:18Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)
Bandit algorithms to emulate human decision making using probabilistic distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文参考訳（メタデータ） (2016-11-30T17:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。