論文の概要: Time-varying Gaussian Process Bandit Optimization with Non-constant
Evaluation Time
- arxiv url: http://arxiv.org/abs/2003.04691v2
- Date: Wed, 11 Mar 2020 00:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:46:11.162175
- Title: Time-varying Gaussian Process Bandit Optimization with Non-constant
Evaluation Time
- Title(参考訳): 非定常評価時間を用いた時変ガウス過程バンディット最適化
- Authors: Hideaki Imamura, Nontawat Charoenphakdee, Futoshi Futami, Issei Sato,
Junya Honda, Masashi Sugiyama
- Abstract要約: 非定常評価時間を効果的に処理できる新しい時間変化ベイズ最適化アルゴリズムを提案する。
我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
- 参考スコア(独自算出の注目度): 93.6788993843846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Gaussian process bandit is a problem in which we want to find a maximizer
of a black-box function with the minimum number of function evaluations. If the
black-box function varies with time, then time-varying Bayesian optimization is
a promising framework. However, a drawback with current methods is in the
assumption that the evaluation time for every observation is constant, which
can be unrealistic for many practical applications, e.g., recommender systems
and environmental monitoring. As a result, the performance of current methods
can be degraded when this assumption is violated. To cope with this problem, we
propose a novel time-varying Bayesian optimization algorithm that can
effectively handle the non-constant evaluation time. Furthermore, we
theoretically establish a regret bound of our algorithm. Our bound elucidates
that a pattern of the evaluation time sequence can hugely affect the difficulty
of the problem. We also provide experimental results to validate the practical
effectiveness of the proposed method.
- Abstract(参考訳): ガウス過程バンドイット(gaussian process bandit)は、最小の関数評価数を持つブラックボックス関数の最大値を求める問題である。
ブラックボックス関数が時間によって異なる場合、時変ベイズ最適化は有望なフレームワークである。
しかし、現在の手法の欠点は、観察毎の評価時間が一定であるという仮定であり、レコメンダシステムや環境モニタリングなど、多くの実用的なアプリケーションでは非現実的である。
その結果、現在のメソッドのパフォーマンスは、この仮定に違反した場合に低下する可能性がある。
この問題に対処するために,非定常評価時間を効果的に処理できる,時変ベイズ最適化アルゴリズムを提案する。
さらに、理論的にはアルゴリズムの後悔境界を確立する。
我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
また,提案手法の有効性を検証するための実験結果も提供する。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Time-Varying Gaussian Process Bandits with Unknown Prior [18.93478528448966]
PE-GP-UCBは時変ベイズ最適化問題を解くことができる。
これは、観測された関数の値が以前のいくつかの値と一致しているという事実に依存している。
論文 参考訳(メタデータ) (2024-02-02T18:52:16Z) - Primal-Dual Contextual Bayesian Optimization for Control System Online
Optimization with Time-Average Constraints [21.38692458445459]
本稿では,制約付き閉ループ制御システムのオンライン性能最適化問題について検討する。
動的最適解に対する線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-12T18:37:52Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Bayesian Optimization under Stochastic Delayed Feedback [36.16843889404038]
既存のBOメソッドは、関数評価(フィードバック)が学習者の即時または固定遅延後に利用可能であると仮定する。
本稿では,遅延フィードバックを待ちながら新しい関数クエリを選択するジレンマに効率よく対処する,線形後悔保証付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-19T07:34:08Z) - Predictor-corrector algorithms for stochastic optimization under gradual
distribution shift [26.897316325189212]
時間変化の最適化問題は機械学習の実践で頻繁に発生する。
我々は、時間変動最適化のための予測器相関アルゴリズムを開発することにより、この基礎となる連続性を利用する。
論文 参考訳(メタデータ) (2022-05-26T18:33:00Z) - A Framework for Sample Efficient Interval Estimation with Control
Variates [94.32811054797148]
確率変数の平均に対して信頼区間を推定する問題を考察する。
ある条件下では、既存の推定アルゴリズムと比較して効率が向上している。
論文 参考訳(メタデータ) (2020-06-18T05:42:30Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Active Learning for Identification of Linear Dynamical Systems [12.056495277232118]
アルゴリズムが達成した有限時間境界推定率を示す。
そこで本研究では,ノイズを発生させることによって得られるオーバレートを,アルゴリズムが確実に改善する事例をいくつか分析する。
論文 参考訳(メタデータ) (2020-02-02T21:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。