論文の概要: Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits
- arxiv url: http://arxiv.org/abs/2202.06151v1
- Date: Sat, 12 Feb 2022 21:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:46:44.873840
- Title: Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits
- Title(参考訳): バンディットの大きなバンドの結合:リニアバンディットに対する後悔の切り替えに関するケーススタディ
- Authors: Haipeng Luo, Mengxiao Zhang, Peng Zhao, Zhi-Hua Zhou
- Abstract要約: 本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
- 参考スコア(独自算出の注目度): 99.86860277006318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of combining and learning over a set of adversarial
bandit algorithms with the goal of adaptively tracking the best one on the fly.
The CORRAL algorithm of Agarwal et al. (2017) and its variants (Foster et al.,
2020a) achieve this goal with a regret overhead of order
$\widetilde{O}(\sqrt{MT})$ where $M$ is the number of base algorithms and $T$
is the time horizon. The polynomial dependence on $M$, however, prevents one
from applying these algorithms to many applications where $M$ is poly$(T)$ or
even larger. Motivated by this issue, we propose a new recipe to corral a
larger band of bandit algorithms whose regret overhead has only
\emph{logarithmic} dependence on $M$ as long as some conditions are satisfied.
As the main example, we apply our recipe to the problem of adversarial linear
bandits over a $d$-dimensional $\ell_p$ unit-ball for $p \in (1,2]$. By
corralling a large set of $T$ base algorithms, each starting at a different
time step, our final algorithm achieves the first optimal switching regret
$\widetilde{O}(\sqrt{d S T})$ when competing against a sequence of comparators
with $S$ switches (for some known $S$). We further extend our results to linear
bandits over a smooth and strongly convex domain as well as unconstrained
linear bandits.
- Abstract(参考訳): そこで本研究では,一組の逆バンディットアルゴリズムと適応的に最良を追尾するという課題について考察する。
agarwal et al. (2017) とその変種 (foster et al., 2020a) のcorralアルゴリズムは、$m$ が基本アルゴリズム数、$t$ がタイムホライズン数である場合、$\widetilde{o}(\sqrt{mt})$ という命令の残念なオーバーヘッドでこの目標を達成している。
しかし、$m$ の多項式依存性は、$m$ が poly$(t)$ 以上の多くのアプリケーションにこれらのアルゴリズムを適用することを妨げている。
この問題に触発されて,いくつかの条件が満たされる限り,残余オーバーヘッドが$M$にのみ依存する,より大きな帯域幅のバンディットアルゴリズムを相関させる新しいレシピを提案する。
主な例として、我々のレシピを、$d$-dimensional $\ell_p$ unit-ball for $p \in (1,2]$ の逆線形バンディット問題に適用します。
t$ベースアルゴリズムの大規模なセットを、それぞれ異なる時間ステップで展開することで、最終的なアルゴリズムは、$s$スイッチを持つコンパレータのシーケンスと競合した場合に、最初の最適スイッチングプリット$\widetilde{o}(\sqrt{d s t})$を達成する。
さらに、滑らかで強い凸領域上の線形バンディットや、制約のない線形バンディットにまで結果を拡張します。
関連論文リスト
- Efficient Algorithms for Generalized Linear Bandits with Heavy-tailed
Rewards [40.99322897009357]
トランケーションと平均中央値に基づく2つの新しいアルゴリズムを提案する。
我々のトラニケーションベースのアルゴリズムは、既存のトラニケーションベースのアプローチと区別して、オンライン学習をサポートする。
我々のアルゴリズムは,$epsilon=1$の既存アルゴリズムと比較して,対数係数による後悔境界を改善する。
論文 参考訳(メタデータ) (2023-10-28T13:01:10Z) - An Asymptotically Optimal Batched Algorithm for the Dueling Bandit
Problem [13.69077222007053]
従来のマルチアームバンディット問題(英語版)のバリエーションである$K$のデュエルリングバンディット問題(英語版)について検討し、フィードバックをペア比較の形で得られる。
我々は、$O(K2log(K)) + O(Klog(T))$ in $O(log(T))$ rounds を後悔する。
実世界の様々なデータセットに対する計算実験において、$O(log(T))$ラウンドを用いたアルゴリズムが完全に同じ性能を達成することが観察された。
論文 参考訳(メタデータ) (2022-09-25T00:23:55Z) - Variance-Aware Sparse Linear Bandits [64.70681598741417]
余分な線形包帯に対する最悪のミニマックスは$widetildeThetaleft(sqrtdTright)$である。
ノイズがなく、アクションセットが単位球面である良性設定では、ディビジョン・アンド・コンカーを使用して、$widetildemathcal O(1)$ regretを達成することができる。
我々は,任意の分散対応線形帯域幅アルゴリズムを分散対応線形帯域幅アルゴリズムに変換する汎用フレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T15:55:44Z) - Logarithmic Regret from Sublinear Hints [76.87432703516942]
自然クエリモデルにより,アルゴリズムが$O(log T)$ regretsを$O(sqrtT)$ hintsで得ることを示す。
また、$o(sqrtT)$ hintsは$Omega(sqrtT)$ regretより保証できないことも示しています。
論文 参考訳(メタデータ) (2021-11-09T16:50:18Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - Impact of Representation Learning in Linear Bandits [83.17684841392754]
本研究では,表現学習が帯域幅問題の効率性を向上させる方法について検討する。
我々は,$widetildeO(TsqrtkN + sqrtdkNT)$ regretを達成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-13T16:35:30Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Low-Rank Generalized Linear Bandit Problems [19.052901817304743]
低ランク線型バンドイット問題において、作用の報酬は、作用と未知の低ランク行列$Theta*$の間の内部積である。
低ランク行列の被覆によって構築される指数重み付き平均予測器と、オンラインから信頼度セットへの変換パバシ2012onlineの新たな組み合わせに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-04T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。