論文の概要: An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits
- arxiv url: http://arxiv.org/abs/2010.12247v2
- Date: Fri, 20 Nov 2020 09:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:50:31.778418
- Title: An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits
- Title(参考訳): 文脈線形帯域に対する漸近的最適2次元インクリメンタルアルゴリズム
- Authors: Andrea Tirinzoni, Matteo Pirotta, Marcello Restelli, Alessandro
Lazaric
- Abstract要約: 複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
- 参考スコア(独自算出の注目度): 129.1029690825929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the contextual linear bandit setting, algorithms built on the optimism
principle fail to exploit the structure of the problem and have been shown to
be asymptotically suboptimal. In this paper, we follow recent approaches of
deriving asymptotically optimal algorithms from problem-dependent regret lower
bounds and we introduce a novel algorithm improving over the state-of-the-art
along multiple dimensions. We build on a reformulation of the lower bound,
where context distribution and exploration policy are decoupled, and we obtain
an algorithm robust to unbalanced context distributions. Then, using an
incremental primal-dual approach to solve the Lagrangian relaxation of the
lower bound, we obtain a scalable and computationally efficient algorithm.
Finally, we remove forced exploration and build on confidence intervals of the
optimization problem to encourage a minimum level of exploration that is better
adapted to the problem structure. We demonstrate the asymptotic optimality of
our algorithm, while providing both problem-dependent and worst-case
finite-time regret guarantees. Our bounds scale with the logarithm of the
number of arms, thus avoiding the linear dependence common in all related prior
works. Notably, we establish minimax optimality for any learning horizon in the
special case of non-contextual linear bandits. Finally, we verify that our
algorithm obtains better empirical performance than state-of-the-art baselines.
- Abstract(参考訳): 文脈線形バンディット設定では、オプティミズム原理に基づくアルゴリズムは問題の構造をうまく利用できず、漸近的に非最適であることが示されている。
本稿では,問題依存的後悔下限から漸近的最適アルゴリズムを導出する最近のアプローチを追従し,多次元に沿う最先端技術を改良した新しいアルゴリズムを提案する。
我々は、文脈分布と探索ポリシーを分離した下界の再構成に基づいて構築し、不均衡な文脈分布に頑健なアルゴリズムを得る。
そこで,下界のラグランジュ緩和を解くために,漸進的原始双対法を用いて,スケーラブルで計算効率の良いアルゴリズムを得る。
最後に,探索を強制的に取り除き,最適化問題の信頼区間を構築し,問題構造に適応した最小レベルの探索を促す。
本アルゴリズムの漸近的最適性を示すとともに,問題依存型および最悪の有限時間後悔保証を提供する。
我々の境界は、アームの数の対数と共にスケールし、従ってすべての関連する先行研究に共通する線形依存を避ける。
特に、非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
最後に,本アルゴリズムが最先端のベースラインよりも優れた経験的性能が得られることを検証した。
関連論文リスト
- Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Accelerated SGD for Non-Strongly-Convex Least Squares [14.010916616909743]
非強凸設定における最小二乗回帰問題の近似を考察する。
本稿では,問題のノイズに依存して最適な予測誤差率を実現するための,最初の実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-03T14:39:33Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - A proximal-proximal majorization-minimization algorithm for nonconvex
tuning-free robust regression problems [4.261680642170457]
非回帰問題に対する PMM (proximal-proximal majorization-minimization) アルゴリズムを提案する。
提案アルゴリズムは既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-06-25T15:07:13Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - Gamification of Pure Exploration for Linear Bandits [34.16123941778227]
線形バンディットの文脈において、ベストアーム識別を含む活発な純粋探索環境について検討する。
標準的なマルチアームバンディットには最適アルゴリズムが存在するが、リニアバンディットにおけるベストアーム識別のためのアルゴリズムの存在は明白である。
線形帯域における固定信頼純粋探索のための第一の洞察的最適アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-07-02T08:20:35Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。