論文の概要: Scalable First-Order Bayesian Optimization via Structured Automatic
Differentiation
- arxiv url: http://arxiv.org/abs/2206.08366v1
- Date: Thu, 16 Jun 2022 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 14:41:57.931154
- Title: Scalable First-Order Bayesian Optimization via Structured Automatic
Differentiation
- Title(参考訳): 構造化自動微分によるスケーラブルな一階ベイズ最適化
- Authors: Sebastian Ament and Carla Gomes
- Abstract要約: 広い範囲のカーネルが構造化行列を生じさせ、勾配観測のための正確な$mathcalO(n2d)$Matrix-vector multiplyとヘッセン観測のための$mathcalO(n2d2)$を可能にした。
提案手法は,ほぼすべての標準カーネルに適用され,ニューラルネットワーク,放射基底関数ネットワーク,スペクトル混合カーネルなどの複雑なカーネルに自動的に拡張される。
- 参考スコア(独自算出の注目度): 4.061135251278187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian Optimization (BO) has shown great promise for the global
optimization of functions that are expensive to evaluate, but despite many
successes, standard approaches can struggle in high dimensions. To improve the
performance of BO, prior work suggested incorporating gradient information into
a Gaussian process surrogate of the objective, giving rise to kernel matrices
of size $nd \times nd$ for $n$ observations in $d$ dimensions. Na\"ively
multiplying with (resp. inverting) these matrices requires
$\mathcal{O}(n^2d^2)$ (resp. $\mathcal{O}(n^3d^3$)) operations, which becomes
infeasible for moderate dimensions and sample sizes. Here, we observe that a
wide range of kernels gives rise to structured matrices, enabling an exact
$\mathcal{O}(n^2d)$ matrix-vector multiply for gradient observations and
$\mathcal{O}(n^2d^2)$ for Hessian observations. Beyond canonical kernel
classes, we derive a programmatic approach to leveraging this type of structure
for transformations and combinations of the discussed kernel classes, which
constitutes a structure-aware automatic differentiation algorithm. Our methods
apply to virtually all canonical kernels and automatically extend to complex
kernels, like the neural network, radial basis function network, and spectral
mixture kernels without any additional derivations, enabling flexible,
problem-dependent modeling while scaling first-order BO to high $d$.
- Abstract(参考訳): ベイズ最適化(BO)は評価に費用がかかる関数のグローバルな最適化を大いに約束しているが、多くの成功にもかかわらず、標準的なアプローチは高次元において苦労する可能性がある。
boの性能を改善するために、以前の研究は目的を代理するガウス過程に勾配情報を組み込むことを提案し、d$次元の観察のためにnd \times nd$ というサイズのカーネル行列を生み出した。
na\"ively multiplying with (resp. inverting) これらの行列は$\mathcal{o}(n^2d^2)$ (resp.) を必要とする。
$\mathcal{O}(n^3d^3$) 演算は、中等次元やサンプルサイズでは不可能になる。
ここでは、幅広いカーネルが構造化行列を生じさせ、正確な$\mathcal{O}(n^2d)$行列ベクトル乗法と$\mathcal{O}(n^2d^2)$ヘッセン観測を可能にする。
標準カーネルクラス以外にも、このタイプの構造を、構造認識自動微分アルゴリズムを構成する議論されたカーネルクラスの変換と組み合わせに活用するためのプログラム的アプローチを導出する。
提案手法は,ほぼすべての標準カーネルに適用され,ニューラルネットワーク,ラジアル基底関数ネットワーク,スペクトル混合カーネルなどの複雑なカーネルに自動的に拡張される。
関連論文リスト
- Scaling Gaussian Processes for Learning Curve Prediction via Latent Kronecker Structure [16.319561844942886]
GPモデルは,学習曲線予測タスクにおいて,トランスフォーマーの性能と一致することを示す。
我々の方法は、$mathcalO(n3 + m3)$ timeと$mathcalO(n2 + m2)$ spaceのみを必要とする。
論文 参考訳(メタデータ) (2024-10-11T20:24:33Z) - Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである
我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。
トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-08T17:11:38Z) - Low-complexity subspace-descent over symmetric positive definite
manifold [9.346050098365648]
対称正定値多様体(SPD)上の関数の最小化のための低複素性アルゴリズムを開発する。
提案手法は、慎重に選択された部分空間を利用して、更新をイテレートのコレスキー因子とスパース行列の積として記述することができる。
論文 参考訳(メタデータ) (2023-05-03T11:11:46Z) - Data-Driven Linear Complexity Low-Rank Approximation of General Kernel
Matrices: A Geometric Approach [0.9453554184019107]
K_ij = kappa(x_i,y_j)$ ここで $kappa(x,y)$ はカーネル関数である。
我々は、点の集合 X$ と $Y$ が大きいカーネル行列に対する低ランク近似を求める。
論文 参考訳(メタデータ) (2022-12-24T07:15:00Z) - Geometry-aware Bayesian Optimization in Robotics using Riemannian
Mat\'ern Kernels [64.62221198500467]
ベイズ最適化のための幾何対応カーネルの実装方法を示す。
この技術は、ロボット工学における制御パラメータチューニング、パラメトリックポリシー適応、構造設計に利用できる。
論文 参考訳(メタデータ) (2021-11-02T09:47:22Z) - Sparse Quadratic Optimisation over the Stiefel Manifold with Application
to Permutation Synchronisation [71.27989298860481]
二次目的関数を最大化するスティーフェル多様体上の行列を求める非最適化問題に対処する。
そこで本研究では,支配的固有空間行列を求めるための,単純かつ効果的なスパーシティプロモーティングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-30T19:17:35Z) - Bayesian Optimistic Optimisation with Exponentially Decaying Regret [58.02542541410322]
現在の実用的なBOアルゴリズムは、$mathcalO(fraclogNsqrtN)$から$mathcalO(e-sqrtN)$まで、$N$は評価の数である。
本稿では,boと木に基づく楽観的楽観化の概念を絡み合うことにより,無音環境における後悔を改善できる可能性について検討する。
次数$mathcal O(N-sqrt)で指数的再帰を達成できる最初の実践的手法であるBOOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T13:07:44Z) - High-Dimensional Gaussian Process Inference with Derivatives [90.8033626920884]
低データ状態の$ND$では、Gram行列は$mathcalO(N2D + (N2)3)$に推論のコストを下げる方法で分解できることを示す。
最適化や予測勾配を持つハミルトニアンモンテカルロなど、機械学習に関連する様々なタスクでこの可能性を実証する。
論文 参考訳(メタデータ) (2021-02-15T13:24:41Z) - Finding Global Minima via Kernel Approximations [90.42048080064849]
関数評価のみに基づく滑らかな関数のグローバル最小化を考える。
本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。
論文 参考訳(メタデータ) (2020-12-22T12:59:30Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。