論文の概要: Robust Contextual Linear Bandits
- arxiv url: http://arxiv.org/abs/2210.14483v1
- Date: Wed, 26 Oct 2022 05:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:30:26.160677
- Title: Robust Contextual Linear Bandits
- Title(参考訳): ロバスト文脈線形帯域
- Authors: Rong Zhu and Branislav Kveton
- Abstract要約: 本稿では、コンテキストによって捉えられていない腕間不均一性である、共通形の誤特定について研究する。
我々は,ロLinUCB という UCB アルゴリズムと,ロLinTS という後方サンプリングアルゴリズムという2つの効率的な帯域幅アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 19.85979744859435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model misspecification is a major consideration in applications of
statistical methods and machine learning. However, it is often neglected in
contextual bandits. This paper studies a common form of misspecification, an
inter-arm heterogeneity that is not captured by context. To address this issue,
we assume that the heterogeneity arises due to arm-specific random variables,
which can be learned. We call this setting a robust contextual bandit. The
arm-specific variables explain the unknown inter-arm heterogeneity, and we
incorporate them in the robust contextual estimator of the mean reward and its
uncertainty. We develop two efficient bandit algorithms for our setting: a UCB
algorithm called RoLinUCB and a posterior-sampling algorithm called RoLinTS. We
analyze both algorithms and bound their $n$-round Bayes regret. Our experiments
show that RoLinTS is comparably statistically efficient to the classic methods
when the misspecification is low, more robust when the misspecification is
high, and significantly more computationally efficient than its naive
implementation.
- Abstract(参考訳): モデル不特定は統計手法や機械学習の応用において大きな考慮事項である。
しかし、文脈的な盗賊では無視されることが多い。
本稿では, 文脈によって捉えられない共通の誤特定形態, 腕間不均質性について検討する。
この問題に対処するため、異種性はarm固有の確率変数によって生じると仮定し、そこから学ぶことができる。
これを堅牢な文脈的盗賊と呼ぶ。
アーム固有の変数は未知のアーム間の不均一性を説明し、平均報酬とその不確かさのロバストな文脈推定器に組み込む。
我々は,ロLinUCB という UCB アルゴリズムと,ロLinTS という後方サンプリングアルゴリズムという2つの効率的な帯域幅アルゴリズムを開発した。
両アルゴリズムを解析し、それらの$n$ラウンドベイズを後悔する。
実験により,ロリントは,誤特定度が低く,誤特定度が高い場合には頑健で,ナイーブな実装よりも計算効率が著しく高い古典的手法に比較して統計的に効率的であることが判明した。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Dual Instrumental Method for Confounded Kernelized Bandits [0.0]
文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。
本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。
双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:25:57Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed
Bandits [4.760079434948198]
このようなパラメトリック情報を利用する特殊なアルゴリズムは、パラメータが誤って特定された場合、不整合学習性能が高いことを示す。
主な貢献は, (i) 固定予算純探索条件下で統計的に堅牢なMABアルゴリズムの基本的な性能限界を確立すること, (ii) 二つの近似アルゴリズムのクラスを提案することである。
論文 参考訳(メタデータ) (2020-08-28T13:43:12Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。