論文の概要: Nonmyopic Gaussian Process Optimization with Macro-Actions
- arxiv url: http://arxiv.org/abs/2002.09670v1
- Date: Sat, 22 Feb 2020 09:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 19:01:08.704339
- Title: Nonmyopic Gaussian Process Optimization with Macro-Actions
- Title(参考訳): マクロ反応による非明視ガウス過程の最適化
- Authors: Dmitrii Kharkovskii, Chun Kai Ling, Kian Hsiang Low
- Abstract要約: 本稿では,非明視適応ガウス過程最適化(GPO)に対する多段階的アプローチを提案する。
マクロアクションの概念を利用して、より多くの予算に対応するために、さらなるルックアヘッドまでスケールアップする。
我々は,エプシロン-マクロ-GPOポリシーとその時変を,人工的および実世界のデータセットを用いたBOデータセットで実証的に評価した。
- 参考スコア(独自算出の注目度): 13.847308344546171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a multi-staged approach to nonmyopic adaptive Gaussian
process optimization (GPO) for Bayesian optimization (BO) of unknown, highly
complex objective functions that, in contrast to existing nonmyopic adaptive BO
algorithms, exploits the notion of macro-actions for scaling up to a further
lookahead to match up to a larger available budget. To achieve this, we
generalize GP upper confidence bound to a new acquisition function defined
w.r.t. a nonmyopic adaptive macro-action policy, which is intractable to be
optimized exactly due to an uncountable set of candidate outputs. The
contribution of our work here is thus to derive a nonmyopic adaptive
epsilon-Bayes-optimal macro-action GPO (epsilon-Macro-GPO) policy. To perform
nonmyopic adaptive BO in real time, we then propose an asymptotically optimal
anytime variant of our epsilon-Macro-GPO policy with a performance guarantee.
We empirically evaluate the performance of our epsilon-Macro-GPO policy and its
anytime variant in BO with synthetic and real-world datasets.
- Abstract(参考訳): 本稿では,非明視適応型BOアルゴリズムとは対照的に,既存の非明視適応型BOアルゴリズムとは対照的に,より大きな予算に対応するために,マクロアクションという概念を利用して,非明視適応型ガウスプロセス最適化(GPO)をベイズ最適化(BO)に向けた多段階的アプローチを提案する。
これを実現するために、GP上層信頼度を非明極適応マクロアクションポリシーで定義した新しい獲得関数に限定して一般化する。
この研究の貢献は、非筋適合性エプシロン-ベイズ-最適マクロ反応 GPO (epsilon-Macro-GPO) 政策の導出である。
そこで我々は,エプシロン-マクロ-GPOポリシーの漸近的最適時変を性能保証とともに提案する。
我々は,エプシロン-マクロ-GPOポリシーとその時変を,人工的および実世界のデータセットを用いたBOで実証的に評価した。
関連論文リスト
- Generalized Preference Optimization: A Unified Approach to Offline Alignment [54.97015778517253]
本稿では,一般的な凸関数のクラスによってパラメータ化されるオフライン損失の族である一般化された選好最適化(GPO)を提案する。
GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含む、優先最適化に関する統一的なビューを可能にする。
本研究は,新たなアルゴリズムツールキットと経験的洞察を実践者のアライメントに提示する。
論文 参考訳(メタデータ) (2024-02-08T15:33:09Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies [0.0]
ポリシー最適化は、タスク固有の目的の関数としてロボットポリシーを適用するための、事実上のパラダイムである。
本稿では,最適輸送問題として政策最適化を適用することで,確率的政策の構造を活用することを提案する。
我々は,ロボットの動作の到達,衝突回避行動,マルチゴールタスクなど,一般的なロボット設定に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-17T17:48:24Z) - Bayesian Optimization for Macro Placement [48.55456716632735]
本研究では,系列対上のベイズ最適化(BO)を用いた新しいマクロ配置法を提案する。
BOは確率的代理モデルと獲得関数を利用する機械学習技術である。
固定アウトラインマクロ配置問題に対して, 半周波線長目標を用いたアルゴリズムを実証する。
論文 参考訳(メタデータ) (2022-07-18T06:17:06Z) - Surrogate modeling for Bayesian optimization beyond a single Gaussian
process [62.294228304646516]
本稿では,探索空間の活用と探索のバランスをとるための新しいベイズ代理モデルを提案する。
拡張性のある関数サンプリングを実現するため、GPモデル毎にランダムな特徴ベースのカーネル近似を利用する。
提案した EGP-TS を大域的最適に収束させるため,ベイズ的後悔の概念に基づいて解析を行う。
論文 参考訳(メタデータ) (2022-05-27T16:43:10Z) - Bayesian Optimization of Risk Measures [7.799648230758491]
我々は、$rho[F(x, W) ]$ という形の目的関数のベイズ最適化を考える。
目的関数の構造を利用してサンプリング効率を大幅に向上する新しいベイズ最適化アルゴリズム群を提案する。
論文 参考訳(メタデータ) (2020-07-10T18:20:46Z) - BOSH: Bayesian Optimization by Sampling Hierarchically [10.10241176664951]
本稿では,階層的なガウス過程と情報理論の枠組みを組み合わせたBOルーチンを提案する。
BOSHは, ベンチマーク, シミュレーション最適化, 強化学習, ハイパーパラメータチューニングタスクにおいて, 標準BOよりも効率的で高精度な最適化を実現する。
論文 参考訳(メタデータ) (2020-07-02T07:35:49Z) - Likelihood-Free Inference with Deep Gaussian Processes [70.74203794847344]
サーロゲートモデルは、シミュレータ評価の回数を減らすために、可能性のない推論に成功している。
本稿では,より不規則な対象分布を扱えるディープガウス過程(DGP)サロゲートモデルを提案する。
本実験は,DGPがマルチモーダル分布を持つ目的関数上でGPよりも優れ,単調な場合と同等の性能を維持できることを示す。
論文 参考訳(メタデータ) (2020-06-18T14:24:05Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。