Fugu-MT 論文翻訳(概要): An Optimization-based Algorithm for Non-stationary Kernel Bandits without Prior Knowledge

論文の概要: An Optimization-based Algorithm for Non-stationary Kernel Bandits without Prior Knowledge

arxiv url: http://arxiv.org/abs/2205.14775v1
Date: Sun, 29 May 2022 21:32:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-31 14:06:55.478649
Title: An Optimization-based Algorithm for Non-stationary Kernel Bandits without Prior Knowledge
Title（参考訳）: 事前知識のない非定常カーネル帯域最適化アルゴリズム
Authors: Kihyuk Hong, Yuhang Li, Ambuj Tewari
Abstract要約: 本研究では,非定常性の度合いの事前知識を必要としない非定常カーネル帯域幅のアルゴリズムを提案する。我々のアルゴリズムは、非定常カーネル帯域設定に関する以前の研究よりも、より厳密な動的後悔を享受する。
参考スコア（独自算出の注目度）: 23.890686553141798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose an algorithm for non-stationary kernel bandits that does not require prior knowledge of the degree of non-stationarity. The algorithm follows randomized strategies obtained by solving optimization problems that balance exploration and exploitation. It adapts to non-stationarity by restarting when a change in the reward function is detected. Our algorithm enjoys a tighter dynamic regret bound than previous work on the non-stationary kernel bandit setting. Moreover, when applied to the non-stationary linear bandit setting by using a linear kernel, our algorithm is nearly minimax optimal, solving an open problem in the non-stationary linear bandit literature. We extend our algorithm to use a neural network for dynamically adapting the feature mapping to observed data. We prove a dynamic regret bound of the extension using the neural tangent kernel theory. We demonstrate empirically that our algorithm and the extension can adapt to varying degrees of non-stationarity.
Abstract（参考訳）: 我々は,非定常なカーネルバンドに対する事前知識を必要としないアルゴリズムを提案する。このアルゴリズムは探索と利用のバランスをとる最適化問題を解くことによって得られるランダム化戦略に従う。報酬関数の変化が検出されたときに再起動することで、非定常に適応する。このアルゴリズムは、非定常カーネルバンディット設定における以前の作業よりも、より強固な動的後悔を味わう。さらに、線形カーネルを用いて非定常線形バンドイット設定に適用した場合、このアルゴリズムは最小限の最適値であり、非定常線形バンドイット文献の開問題を解く。我々は、観測データに特徴マッピングを動的に適応するためにニューラルネットワークを使用するようにアルゴリズムを拡張した。我々は神経接核理論を用いて拡張の動的後悔の限界を証明する。我々のアルゴリズムと拡張が様々な非定常性に適応できることを実証的に証明する。

関連論文リスト

Online Learning of Whittle Indices for Restless Bandits with Non-Stationary Transition Kernels [15.044145268931624]
本研究では,レスレスマルチアーム・バンディット(RMAB)の資源割り当てについて,未知の非定常的設定で検討する。本稿では,Whittleインデックスのオンライン学習アルゴリズムを提案する。本アルゴリズムは,非定常環境におけるベースラインと比較して,最小の累積後悔率で優れた性能を実現する。
論文参考訳（メタデータ） (2025-06-22T22:04:52Z)
Near-Optimal Algorithm for Non-Stationary Kernelized Bandits [6.379833644595456]
時変ベイズ最適化(英語版)とも呼ばれる非定常カーネル化バンドイット問題(KB)について検討する。我々は,2乗指数およびマタン核を持つ非定常KBに対して,アルゴリズムに依存しない最初のリフレッシュローバウンドを示す。本稿では,ランダムな置換による位相除去を再開する手法を提案する。
論文参考訳（メタデータ） (2024-10-21T14:28:26Z)
Is Prior-Free Black-Box Non-Stationary Reinforcement Learning Feasible? [17.220126722355626]
本研究では,非定常強化学習(NS-RL)の問題点を,システムの非定常性に関する事前知識なしで研究する。 MASTERとして知られる最先端のブラックボックスアルゴリズムは、その目標を達成するための条件を特定することに焦点を当てている。
論文参考訳（メタデータ） (2024-10-17T17:09:56Z)
Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。 Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文参考訳（メタデータ） (2024-03-15T23:36:55Z)
Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文参考訳（メタデータ） (2023-02-01T08:50:48Z)
Lifelong Bandit Optimization: No Prior and No Regret [70.94238868711952]
我々は,過去の経験から学習することで環境に適応するアルゴリズムであるLIBOを開発した。カーネルが未知だが、すべてのタスク間で共有されるカーネル構造を仮定する。我々のアルゴリズムは、任意のカーネル化または線形バンディットアルゴリズムと組み合わせて、最適な性能を保証できる。
論文参考訳（メタデータ） (2022-10-27T14:48:49Z)
On Adaptivity in Non-stationary Stochastic Optimization With Bandit Feedback [11.208914594208654]
集約された関数の変化が事前認識されている場合、単純な再起動アルゴリズムが最適の動的後悔を達成できることが示される。また,静止ベンチマークに対して良好な後悔を達成するアルゴリズムを,動的ベンチマークに対して良い後悔を与えるアルゴリズムに自動的に変換できることを示す。
論文参考訳（メタデータ） (2022-10-11T16:16:34Z)
Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-07T14:19:07Z)
Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文参考訳（メタデータ） (2020-11-01T17:59:19Z)
An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文参考訳（メタデータ） (2020-10-23T09:12:47Z)
Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文参考訳（メタデータ） (2020-03-04T09:46:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。