論文の概要: An Optimization-based Algorithm for Non-stationary Kernel Bandits
without Prior Knowledge
- arxiv url: http://arxiv.org/abs/2205.14775v1
- Date: Sun, 29 May 2022 21:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:06:55.478649
- Title: An Optimization-based Algorithm for Non-stationary Kernel Bandits
without Prior Knowledge
- Title(参考訳): 事前知識のない非定常カーネル帯域最適化アルゴリズム
- Authors: Kihyuk Hong, Yuhang Li, Ambuj Tewari
- Abstract要約: 本研究では,非定常性の度合いの事前知識を必要としない非定常カーネル帯域幅のアルゴリズムを提案する。
我々のアルゴリズムは、非定常カーネル帯域設定に関する以前の研究よりも、より厳密な動的後悔を享受する。
- 参考スコア(独自算出の注目度): 23.890686553141798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an algorithm for non-stationary kernel bandits that does not
require prior knowledge of the degree of non-stationarity. The algorithm
follows randomized strategies obtained by solving optimization problems that
balance exploration and exploitation. It adapts to non-stationarity by
restarting when a change in the reward function is detected. Our algorithm
enjoys a tighter dynamic regret bound than previous work on the non-stationary
kernel bandit setting. Moreover, when applied to the non-stationary linear
bandit setting by using a linear kernel, our algorithm is nearly minimax
optimal, solving an open problem in the non-stationary linear bandit
literature. We extend our algorithm to use a neural network for dynamically
adapting the feature mapping to observed data. We prove a dynamic regret bound
of the extension using the neural tangent kernel theory. We demonstrate
empirically that our algorithm and the extension can adapt to varying degrees
of non-stationarity.
- Abstract(参考訳): 我々は,非定常なカーネルバンドに対する事前知識を必要としないアルゴリズムを提案する。
このアルゴリズムは探索と利用のバランスをとる最適化問題を解くことによって得られるランダム化戦略に従う。
報酬関数の変化が検出されたときに再起動することで、非定常に適応する。
このアルゴリズムは、非定常カーネルバンディット設定における以前の作業よりも、より強固な動的後悔を味わう。
さらに、線形カーネルを用いて非定常線形バンドイット設定に適用した場合、このアルゴリズムは最小限の最適値であり、非定常線形バンドイット文献の開問題を解く。
我々は、観測データに特徴マッピングを動的に適応するためにニューラルネットワークを使用するようにアルゴリズムを拡張した。
我々は神経接核理論を用いて拡張の動的後悔の限界を証明する。
我々のアルゴリズムと拡張が様々な非定常性に適応できることを実証的に証明する。
関連論文リスト
- Near-Optimal Algorithm for Non-Stationary Kernelized Bandits [6.379833644595456]
時変ベイズ最適化(英語版)とも呼ばれる非定常カーネル化バンドイット問題(KB)について検討する。
我々は,2乗指数およびマタン核を持つ非定常KBに対して,アルゴリズムに依存しない最初のリフレッシュローバウンドを示す。
本稿では,ランダムな置換による位相除去を再開する手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T14:28:26Z) - Is Prior-Free Black-Box Non-Stationary Reinforcement Learning Feasible? [17.220126722355626]
本研究では,非定常強化学習(NS-RL)の問題点を,システムの非定常性に関する事前知識なしで研究する。
MASTERとして知られる最先端のブラックボックスアルゴリズムは、その目標を達成するための条件を特定することに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-17T17:09:56Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Lifelong Bandit Optimization: No Prior and No Regret [70.94238868711952]
我々は,過去の経験から学習することで環境に適応するアルゴリズムであるLIBOを開発した。
カーネルが未知だが、すべてのタスク間で共有されるカーネル構造を仮定する。
我々のアルゴリズムは、任意のカーネル化または線形バンディットアルゴリズムと組み合わせて、最適な性能を保証できる。
論文 参考訳(メタデータ) (2022-10-27T14:48:49Z) - On Adaptivity in Non-stationary Stochastic Optimization With Bandit
Feedback [11.208914594208654]
集約された関数の変化が事前認識されている場合、単純な再起動アルゴリズムが最適の動的後悔を達成できることが示される。
また,静止ベンチマークに対して良好な後悔を達成するアルゴリズムを,動的ベンチマークに対して良い後悔を与えるアルゴリズムに自動的に変換できることを示す。
論文 参考訳(メタデータ) (2022-10-11T16:16:34Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。