論文の概要: Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators
- arxiv url: http://arxiv.org/abs/2412.00088v1
- Date: Wed, 27 Nov 2024 09:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:40.460145
- Title: Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators
- Title(参考訳): 確率的テイラー導関数推定器:任意の微分作用素に対する効率的な補正
- Authors: Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi,
- Abstract要約: 多変量関数に対する任意の順序の微分テンソルの任意の収縮を効率的に行う方法を示す。
物理インフォームドニューラルネットワーク(PINN)に適用すると,1000$times$ Speed-upと1000$times$ Speed-upが提供される。
30$times$1次ADによるランダム化によるメモリ削減。
- 参考スコア(独自算出の注目度): 29.063441432499776
- License:
- Abstract: Optimizing neural networks with loss that contain high-dimensional and high-order differential operators is expensive to evaluate with back-propagation due to $\mathcal{O}(d^{k})$ scaling of the derivative tensor size and the $\mathcal{O}(2^{k-1}L)$ scaling in the computation graph, where $d$ is the dimension of the domain, $L$ is the number of ops in the forward computation graph, and $k$ is the derivative order. In previous works, the polynomial scaling in $d$ was addressed by amortizing the computation over the optimization process via randomization. Separately, the exponential scaling in $k$ for univariate functions ($d=1$) was addressed with high-order auto-differentiation (AD). In this work, we show how to efficiently perform arbitrary contraction of the derivative tensor of arbitrary order for multivariate functions, by properly constructing the input tangents to univariate high-order AD, which can be used to efficiently randomize any differential operator. When applied to Physics-Informed Neural Networks (PINNs), our method provides >1000$\times$ speed-up and >30$\times$ memory reduction over randomization with first-order AD, and we can now solve \emph{1-million-dimensional PDEs in 8 minutes on a single NVIDIA A100 GPU}. This work opens the possibility of using high-order differential operators in large-scale problems.
- Abstract(参考訳): 高次元および高階微分演算子を含む損失を伴うニューラルネットワークの最適化は、微分テンソルサイズが$\mathcal{O}(d^{k})$スケールと$\mathcal{O}(2^{k-1}L)$スケールによるバックプロパゲーションによる評価が高価である。
以前の研究では、$d$の多項式スケーリングは、ランダム化による最適化プロセス上の計算を記憶することで対処された。
これとは別に、単変量関数(d=1$)に対する$k$の指数的スケーリングは高次自己微分(AD)によって対処された。
本研究では、任意の微分作用素を効率よくランダム化することができる高次ADをユニバリケートするために入力接点を適切に構成することにより、任意の順序の微分テンソルの任意の縮約を多変量関数に対して効率的に行う方法を示す。
物理インフォームドニューラルネットワーク(PINN)に適用すると,1000$\times$ Speed-up と >30$\times$ memory reduction over randomization with first-order AD が提供され,1つのNVIDIA A100 GPU上で8分で \emph{1- millionion-dimensional PDEを解けるようになった。
この研究は、大規模問題に高階微分作用素を用いる可能性を開く。
関連論文リスト
- Fast and scalable Wasserstein-1 neural optimal transport solver for single-cell perturbation prediction [55.89763969583124]
最適輸送理論はそのような写像を構築するための原則化された枠組みを提供する。
本稿では,Wasserstein-1に基づく新しい最適輸送解法を提案する。
実験により,提案した解法は,2次元データセット上に一意かつ単調な写像を求める際に,$W$ OTソルバを模倣できることを示した。
論文 参考訳(メタデータ) (2024-11-01T14:23:19Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - Convergence Rates for Non-Log-Concave Sampling and Log-Partition
Estimation [0.0]
m$timesの微分可能関数が$d$の場合、$n$(m/d)のアルゴリズムの最適レートは$n(m/d)であることが知られている。
サンプリングと計算に類似したレートが可能であり、独立レートが$d$の時間で実現可能であることを示す。
論文 参考訳(メタデータ) (2023-03-06T15:53:44Z) - Scalable First-Order Bayesian Optimization via Structured Automatic
Differentiation [4.061135251278187]
広い範囲のカーネルが構造化行列を生じさせ、勾配観測のための正確な$mathcalO(n2d)$Matrix-vector multiplyとヘッセン観測のための$mathcalO(n2d2)$を可能にした。
提案手法は,ほぼすべての標準カーネルに適用され,ニューラルネットワーク,放射基底関数ネットワーク,スペクトル混合カーネルなどの複雑なカーネルに自動的に拡張される。
論文 参考訳(メタデータ) (2022-06-16T17:59:48Z) - Efficient and robust high-dimensional sparse logistic regression via
nonlinear primal-dual hybrid gradient algorithms [0.0]
弾性ネットペナルティによって正規化されるロジスティック回帰問題に対する解を確実に計算する反復アルゴリズムを提案する。
この結果は、一階最適化法に対して$O(min(m2n,mn2)log (1/epsilon))$の既知の複雑性境界を改善する。
論文 参考訳(メタデータ) (2021-11-30T14:16:48Z) - Scaling Gaussian Processes with Derivative Information Using Variational
Inference [17.746842802181256]
本稿では,変分推論を用いた導関数を用いた完全スケーラブルなガウス過程回帰を実現する手法を提案する。
我々は,高次元ステラレータ融合回帰タスクから,Pubmed上のグラフ畳み込みニューラルネットワークのトレーニングまで,さまざまなタスクに対するアプローチの完全なスケーラビリティを実証する。
論文 参考訳(メタデータ) (2021-07-08T18:23:59Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Asynchronous Stochastic Optimization Robust to Arbitrary Delays [54.61797739710608]
遅延勾配の最適化を考えると、ステップt$毎に、アルゴリズムは古い計算を使って更新する - d_t$ for arbitrary delay $d_t gradient。
本実験は,遅延分布が歪んだり重くなったりした場合のアルゴリズムの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2021-06-22T15:50:45Z) - Finding Global Minima via Kernel Approximations [90.42048080064849]
関数評価のみに基づく滑らかな関数のグローバル最小化を考える。
本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。
論文 参考訳(メタデータ) (2020-12-22T12:59:30Z) - Convergence of Sparse Variational Inference in Gaussian Processes
Regression [29.636483122130027]
計算コストが$mathcalO(log N)2D(log N)2)$の手法を推論に利用できることを示す。
論文 参考訳(メタデータ) (2020-08-01T19:23:34Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。