論文の概要: Stochastic Multi-Armed Bandits with Control Variates
- arxiv url: http://arxiv.org/abs/2105.03962v1
- Date: Sun, 9 May 2021 15:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 05:33:22.288510
- Title: Stochastic Multi-Armed Bandits with Control Variates
- Title(参考訳): 制御変数を持つ確率的多関節帯域
- Authors: Arun Verma, Manjesh K. Hanawal
- Abstract要約: 我々は、学習者が腕に関する補助情報にアクセスできるマルチアーム盗聴問題の新しい変種を研究します。
補助情報は腕の報酬と相関しています。
我々は,推定精度を向上させるアルゴリズムucb-cvを開発した。
- 参考スコア(独自算出の注目度): 6.548580592686076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies a new variant of the stochastic multi-armed bandits
problem, where the learner has access to auxiliary information about the arms.
The auxiliary information is correlated with the arm rewards, which we treat as
control variates. In many applications, the arm rewards are a function of some
exogenous values, whose mean value is known a priori from historical data and
hence can be used as control variates. We use the control variates to obtain
mean estimates with smaller variance and tighter confidence bounds. We then
develop an algorithm named UCB-CV that uses improved estimates. We characterize
the regret bounds in terms of the correlation between the rewards and control
variates. The experiments on synthetic data validate the performance guarantees
of our proposed algorithm.
- Abstract(参考訳): 本稿では,学習者が腕に関する補助情報にアクセスできる確率的多腕バンディット問題の新しい変種について検討する。
補助情報は、制御変数として扱う腕の報酬と相関する。
多くの応用において、アーム報酬はいくつかの外因性値の関数であり、平均値は過去のデータから先行して知られ、従って制御変数として使うことができる。
制御変数を用いて、より小さな分散とより厳密な信頼境界を持つ平均推定値を得る。
次に,推定精度を向上させるアルゴリズムucb-cvを開発した。
我々は,報奨と制御変数の相関の観点から,後悔の限界を特徴付ける。
合成データに関する実験は,提案アルゴリズムの性能保証を検証する。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Fixed-Budget Best-Arm Identification with Heterogeneous Reward Variances [12.00630538470713]
不均一な報酬分散を伴う固定予算設定におけるベストアーム識別(BAI)の問題について検討する。
本稿では, 既知報酬分散に対するSHVarと未知報酬分散に対するSHAdaVarの2つの分散適応型BAIアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-13T05:41:38Z) - Learning the Pareto Front Using Bootstrapped Observation Samples [17.519167857253404]
本研究では,非支配的な平均報酬ベクトルを持つアームの集合を同定するアルゴリズムを提案する。
提案アルゴリズムのサンプル複雑性は対数係数まで最適である。
主要なコントリビューションは、新しい推定器で、ラウンド毎に、未知のパラメータの見積もりを複数のコンテキスト方向に沿って更新する。
論文 参考訳(メタデータ) (2023-05-31T18:15:09Z) - Robust Contextual Linear Bandits [19.85979744859435]
本稿では、コンテキストによって捉えられていない腕間不均一性である、共通形の誤特定について研究する。
我々は,ロLinUCB という UCB アルゴリズムと,ロLinTS という後方サンプリングアルゴリズムという2つの効率的な帯域幅アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-26T05:18:09Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - ARMS: Antithetic-REINFORCE-Multi-Sample Gradient for Binary Variables [60.799183326613395]
ReINFORCEを用いたマルチサンプル勾配推定器
ARMSはコプラを用いて、相互に合成されたサンプルを何個でも生成する。
生成モデルを訓練するための複数のデータセット上でARMSを評価し,実験結果から競合する手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-28T23:19:54Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - A Framework for Sample Efficient Interval Estimation with Control
Variates [94.32811054797148]
確率変数の平均に対して信頼区間を推定する問題を考察する。
ある条件下では、既存の推定アルゴリズムと比較して効率が向上している。
論文 参考訳(メタデータ) (2020-06-18T05:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。