論文の概要: Large-Scale Gaussian Processes via Alternating Projection
- arxiv url: http://arxiv.org/abs/2310.17137v1
- Date: Thu, 26 Oct 2023 04:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:12:28.612215
- Title: Large-Scale Gaussian Processes via Alternating Projection
- Title(参考訳): 交互投影による大規模ガウス過程
- Authors: Kaiwen Wu, Jonathan Wenger, Haydn Jones, Geoff Pleiss, Jacob R.
Gardner
- Abstract要約: 本稿では,カーネル行列のサブブロックにアクセスする反復的手法を提案する。
我々のアルゴリズムは、交互プロジェクションに基づくもので、GPを非常に大きなデータセットにスケールするという現実的な課題の多くを解決し、各イテレーション時間と空間の複雑さを$mathcalO(n)で解決している。
- 参考スコア(独自算出の注目度): 23.79090469387859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaussian process (GP) hyperparameter optimization requires repeatedly solving
linear systems with $n \times n$ kernel matrices. To address the prohibitive
$\mathcal{O}(n^3)$ time complexity, recent work has employed fast iterative
numerical methods, like conjugate gradients (CG). However, as datasets increase
in magnitude, the corresponding kernel matrices become increasingly
ill-conditioned and still require $\mathcal{O}(n^2)$ space without
partitioning. Thus, while CG increases the size of datasets GPs can be trained
on, modern datasets reach scales beyond its applicability. In this work, we
propose an iterative method which only accesses subblocks of the kernel matrix,
effectively enabling \emph{mini-batching}. Our algorithm, based on alternating
projection, has $\mathcal{O}(n)$ per-iteration time and space complexity,
solving many of the practical challenges of scaling GPs to very large datasets.
Theoretically, we prove our method enjoys linear convergence and empirically we
demonstrate its robustness to ill-conditioning. On large-scale benchmark
datasets up to four million datapoints our approach accelerates training by a
factor of 2$\times$ to 27$\times$ compared to CG.
- Abstract(参考訳): ガウス過程 (gp) ハイパーパラメータ最適化は、n \times n$ の核行列を持つ線形系を反復的に解く必要がある。
無理な$\mathcal{o}(n^3) 時間複雑性に対処するために、最近の研究では共役勾配 (cg) のような高速反復数値解法が採用されている。
しかし、データセットの規模が大きくなるにつれて、対応するカーネル行列はますます不調になり、分割せずに$\mathcal{O}(n^2)$空間を必要とする。
したがって、CGはデータセットのサイズを増加させ、GPはトレーニングできるが、現代のデータセットはその適用範囲を超えてスケールに達する。
本研究では,カーネル行列のサブブロックのみにアクセスし,emph{mini-batching}を効果的に有効化する反復手法を提案する。
我々のアルゴリズムは、交互プロジェクションに基づいて、GPを非常に大きなデータセットにスケールするという現実的な課題の多くを解決し、各イテレーション時間と空間の複雑さを$\mathcal{O}(n)$とする。
理論的には,この手法が線形収束を楽しむことを証明し,不条件に対する堅牢性を実証する。
大規模ベンチマークデータセットでは、私たちのアプローチは、cgと比較して2$\times$から27$\times$の倍のトレーニングを加速します。
関連論文リスト
- Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Sparse Kernel Gaussian Processes through Iterative Charted Refinement
(ICR) [0.0]
本稿では,ガウス過程をモデル化するためのICR(Iterative Charted Refinement)という新しい生成手法を提案する。
ICRは、様々な解像度でモデル化された場所のビューとユーザが提供する座標チャートを組み合わせることで、長距離および短距離の相関を表現している。
ICRは、CPUとGPUの1桁の計算速度で既存の手法より優れています。
論文 参考訳(メタデータ) (2022-06-21T18:00:01Z) - Scalable First-Order Bayesian Optimization via Structured Automatic
Differentiation [4.061135251278187]
広い範囲のカーネルが構造化行列を生じさせ、勾配観測のための正確な$mathcalO(n2d)$Matrix-vector multiplyとヘッセン観測のための$mathcalO(n2d2)$を可能にした。
提案手法は,ほぼすべての標準カーネルに適用され,ニューラルネットワーク,放射基底関数ネットワーク,スペクトル混合カーネルなどの複雑なカーネルに自動的に拡張される。
論文 参考訳(メタデータ) (2022-06-16T17:59:48Z) - The Fast Kernel Transform [21.001203328543006]
本稿では,FKT(Fast Kernel Transform:高速カーネル変換)を提案する。
FKT はガウス、マテルン、ラショナル四次共分散関数や物理的に動機付けられたグリーン関数など、幅広い種類のカーネルに容易に適用できる。
本稿では、時間と精度のベンチマークを提供することによりFKTの有効性と汎用性を説明し、それを近隣埋め込み(t-SNE)とガウス過程を大規模実世界のデータセットに拡張する。
論文 参考訳(メタデータ) (2021-06-08T16:15:47Z) - SigGPDE: Scaling Sparse Gaussian Processes on Sequential Data [16.463077353773603]
SigGPDEは,ガウス過程(GP)を逐次データに基づいて拡張可能な分散変動推論フレームワークである。
GPシグネチャカーネルの勾配は双曲偏微分方程式(PDE)の解であることを示す。
この理論的な洞察により、ELBOを最適化する効率的なバックプロパゲーションアルゴリズムを構築することができる。
論文 参考訳(メタデータ) (2021-05-10T09:10:17Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Faster Kernel Interpolation for Gaussian Processes [30.04235162264955]
大規模データセットへのプロセス(GP)回帰のスケーリングにおける重要な課題は、正確な推論がnxnのカーネル行列を必要とすることである。
構造化カーネル(SKI)は最もスケーラブルな方法の一つである。
1つのO(n)時間前計算ステップの後、SKIをO(m log m)に還元できることが示される。
我々は, m と n の広い範囲で実際に高速化を実演し, 1億点を超える3次元気象レーダデータセット上でGP推定に適用した。
論文 参考訳(メタデータ) (2021-01-28T00:09:22Z) - Hybrid Stochastic-Deterministic Minibatch Proximal Gradient:
Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。
損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:18:44Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。