論文の概要: On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization
- arxiv url: http://arxiv.org/abs/2008.08757v2
- Date: Mon, 24 May 2021 08:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 03:22:29.379050
- Title: On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization
- Title(参考訳): 標準およびロバストガウス過程帯域最適化のための下界について
- Authors: Xu Cai and Jonathan Scarlett
- Abstract要約: 有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
- 参考スコア(独自算出の注目度): 55.937424268654645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider algorithm-independent lower bounds for the problem
of black-box optimization of functions having a bounded norm is some
Reproducing Kernel Hilbert Space (RKHS), which can be viewed as a non-Bayesian
Gaussian process bandit problem. In the standard noisy setting, we provide a
novel proof technique for deriving lower bounds on the regret, with benefits
including simplicity, versatility, and an improved dependence on the error
probability. In a robust setting in which every sampled point may be perturbed
by a suitably-constrained adversary, we provide a novel lower bound for
deterministic strategies, demonstrating an inevitable joint dependence of the
cumulative regret on the corruption level and the time horizon, in contrast
with existing lower bounds that only characterize the individual dependencies.
Furthermore, in a distinct robust setting in which the final point is perturbed
by an adversary, we strengthen an existing lower bound that only holds for
target success probabilities very close to one, by allowing for arbitrary
success probabilities above $\frac{2}{3}$.
- Abstract(参考訳): 本稿では,有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存の下位境界は,非ベイジアンガウス過程のバンドイット問題とみなすことができる再生ケルネルヒルベルト空間 (RKHS) である。
標準的な雑音条件では, 単純さ, 汎用性, 誤り確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提供する。
各標本点が適切に拘束された敵意によって摂動するロバストな設定において、我々は決定論的戦略のための新しい下界を提供し、個々の依存関係のみを特徴付ける既存の下界とは対照的に、腐敗レベルと時間軸に対する累積的後悔の必然的な共同依存を示す。
さらに、逆数によって最終点が乱される特異なロバストな設定では、$\frac{2}{3}$ 以上の任意の成功確率を許容することにより、目標の成功確率を非常に近くまで保つような既存の下界を強化する。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Beyond Primal-Dual Methods in Bandits with Stochastic and Adversarial Constraints [29.514323697659613]
我々は,学習者が任意の長期制約を満たすことなく報酬を最大化することを目的とした,knapsacks問題によるバンディットの一般化に対処する。
私たちのゴールは、双方の制約の下で機能するベスト・オブ・ザ・ワールドのアルゴリズムを設計することです。
論文 参考訳(メタデータ) (2024-05-25T08:09:36Z) - Online Constraint Tightening in Stochastic Model Predictive Control: A
Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。
制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。
提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文 参考訳(メタデータ) (2023-10-04T16:22:02Z) - Proportional Response: Contextual Bandits for Simple and Cumulative
Regret Minimization [29.579719765255927]
本稿では,文脈的帯域幅設定のための効率的な帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは任意の関数クラスで動作し、不特定性をモデル化するのに堅牢で、連続したアーム設定で使用できます。
論文 参考訳(メタデータ) (2023-07-05T08:34:54Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Bias no more: high-probability data-dependent regret bounds for
adversarial bandits and MDPs [48.44657553192801]
我々は,適応的相手に対する盗聴フィードバックを用いたオンライン学習において,高い確率的後悔境界を得るための新しいアプローチを開発した。
我々のアプローチは、対数的に均質な自己協和障壁と強化されたフリードマンの不平等の助けを借りて、単純な学習率のスケジュールの増大に依存している。
論文 参考訳(メタデータ) (2020-06-14T22:09:27Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。