論文の概要: On Under-exploration in Bandits with Mean Bounds from Confounded Data
- arxiv url: http://arxiv.org/abs/2002.08405v4
- Date: Thu, 10 Jun 2021 14:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:17:09.717525
- Title: On Under-exploration in Bandits with Mean Bounds from Confounded Data
- Title(参考訳): 既設データから平均境界を持つ帯域の地下探査について
- Authors: Nihal Sharma, Soumya Basu, Karthikeyan Shanmugam and Sanjay Shakkottai
- Abstract要約: 本稿では,各アームの平均値に有界な側面情報を提供するマルチアームバンディット問題の変種について検討する。
我々は,提案した平均値を用いた非最適グローバルアンダーエクスプローラー(GLUE)アルゴリズムを開発した。
このようなログから平均境界を自然に推定することができ、それによって学習プロセスを改善することができることを示す。
- 参考スコア(独自算出の注目度): 41.09427248084205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a variant of the multi-armed bandit problem where side information
in the form of bounds on the mean of each arm is provided. We develop the novel
non-optimistic Global Under-Explore (GLUE) algorithm which uses the provided
mean bounds (across all the arms) to infer pseudo-variances for each arm, which
in turn decide the rate of exploration for the arms. We analyze the regret of
GLUE and prove regret upper bounds that are never worse than that of the
standard UCB algorithm. Furthermore, we show that GLUE improves upon regret
guarantees that exists in literature for structured bandit problems (both
theoretically and empirically). Finally, we study the practical setting of
learning adaptive interventions using prior data that has been confounded by
unrecorded variables that affect rewards. We show that mean bounds can be
inferred naturally from such logs and can thus be used to improve the learning
process. We validate our findings through semi-synthetic experiments on data
derived from real data sets.
- Abstract(参考訳): 本研究では,各アームの平均値のバウンド形式でのサイド情報を提供するマルチアームバンディット問題の変種について検討する。
我々は,与えられた平均境界(すべてのアームを横切る)を用いて各アームの擬似分散を推定し,アームの探索率を決定する,新しい非最適化グローバルアンダーエクスプローラー(glue)アルゴリズムを開発した。
我々は,GLUEの後悔を解析し,通常の UCB アルゴリズムよりも悪くないような,後悔すべき上限を証明した。
さらに,構造的バンディット問題(理論上,経験上)に対する文献上に存在する後悔の保証によりグルーが改善することを示す。
最後に,報奨に影響を及ぼす未記録変数が組み合わさった事前データを用いて,適応的介入の学習の実践的設定について検討する。
このようなログから平均境界を自然に推測し,学習プロセスを改善するために使用できることを示す。
本研究は,実データから得られたデータに対する半合成実験により検証した。
関連論文リスト
- Thompson Sampling in Partially Observable Contextual Bandits [2.465689259704613]
我々は、観測データに基づいて最適な腕を選択することを学ぶための盗賊政策について研究する。
我々の理論的分析は、トンプソンサンプリング政策が探索と搾取のバランスをうまくとれることを示している。
これらの技術は、文脈情報や部分的な観察とともに、他の意思決定問題の研究への道を開く。
論文 参考訳(メタデータ) (2024-02-15T19:37:39Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Tighter Information-Theoretic Generalization Bounds from Supersamples [27.14107452619853]
本稿では,学習アルゴリズムのための情報理論の新たな一般化境界について述べる。
提示される境界は平方根境界、高速レート境界を含み、分散と鋭さに基づく境界を含む。
理論的あるいは経験的に、これらの境界は、同じスーパーサンプル設定で知られているすべての情報理論境界よりも厳密であることを示す。
論文 参考訳(メタデータ) (2023-02-05T17:06:27Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Pure Exploration in Multi-armed Bandits with Graph Side Information [11.633592964399806]
グラフ側情報を用いたマルチアームバンディットの純粋探索について検討する。
この問題に対する新しいアルゴリズムGRUB(GRaph based UcB)を提案する。
利用可能なグラフ側情報を利用することで、純粋な探索法よりも大きな改善がもたらされることが示される。
論文 参考訳(メタデータ) (2021-08-02T20:06:04Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Stochastic Multi-Armed Bandits with Control Variates [6.548580592686076]
我々は、学習者が腕に関する補助情報にアクセスできるマルチアーム盗聴問題の新しい変種を研究します。
補助情報は腕の報酬と相関しています。
我々は,推定精度を向上させるアルゴリズムucb-cvを開発した。
論文 参考訳(メタデータ) (2021-05-09T15:40:09Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z) - Information Directed Sampling for Linear Partial Monitoring [112.05623123909895]
線形報酬と観測構造を持つ部分的監視のための情報指向サンプリング(IDS)を導入する。
IDSは、ゲームの正確な可観測性条件に依存する適応的な最悪の後悔率を達成する。
結果がコンテキストおよびカーネル化設定にまで拡張され、アプリケーションの範囲が大幅に増加する。
論文 参考訳(メタデータ) (2020-02-25T21:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。