論文の概要: Operator Learning with Gaussian Processes
- arxiv url: http://arxiv.org/abs/2409.04538v1
- Date: Fri, 6 Sep 2024 18:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 22:31:08.673825
- Title: Operator Learning with Gaussian Processes
- Title(参考訳): ガウス過程を用いた演算子学習
- Authors: Carlos Mora, Amin Yousefpour, Shirin Hosseinmardi, Houman Owhadi, Ramin Bostanabad,
- Abstract要約: 演算子学習は、関数の無限次元空間間の近似写像 $mathcalGdagger:mathcalU rightarrowmathcalV$ に焦点を当てる。
両手法の長所を生かした演算子学習のためのGP/NNベースのハイブリッドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.18641315013048293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Operator learning focuses on approximating mappings $\mathcal{G}^\dagger:\mathcal{U} \rightarrow\mathcal{V}$ between infinite-dimensional spaces of functions, such as $u: \Omega_u\rightarrow\mathbb{R}$ and $v: \Omega_v\rightarrow\mathbb{R}$. This makes it particularly suitable for solving parametric nonlinear partial differential equations (PDEs). While most machine learning methods for operator learning rely on variants of deep neural networks (NNs), recent studies have shown that Gaussian Processes (GPs) are also competitive while offering interpretability and theoretical guarantees. In this paper, we introduce a hybrid GP/NN-based framework for operator learning that leverages the strengths of both methods. Instead of approximating the function-valued operator $\mathcal{G}^\dagger$, we use a GP to approximate its associated real-valued bilinear form $\widetilde{\mathcal{G}}^\dagger: \mathcal{U}\times\mathcal{V}^*\rightarrow\mathbb{R}.$ This bilinear form is defined by $\widetilde{\mathcal{G}}^\dagger(u,\varphi) := [\varphi,\mathcal{G}^\dagger(u)],$ which allows us to recover the operator $\mathcal{G}^\dagger$ through $\mathcal{G}^\dagger(u)(y)=\widetilde{\mathcal{G}}^\dagger(u,\delta_y).$ The GP mean function can be zero or parameterized by a neural operator and for each setting we develop a robust training mechanism based on maximum likelihood estimation (MLE) that can optionally leverage the physics involved. Numerical benchmarks show that (1) it improves the performance of a base neural operator by using it as the mean function of a GP, and (2) it enables zero-shot data-driven models for accurate predictions without prior training. Our framework also handles multi-output operators where $\mathcal{G}^\dagger:\mathcal{U} \rightarrow\prod_{s=1}^S\mathcal{V}^s$, and benefits from computational speed-ups via product kernel structures and Kronecker product matrix representations.
- Abstract(参考訳): 演算子学習は近似写像 $\mathcal{G}^\dagger:\mathcal{U} \rightarrow\mathcal{V}$ と $u: \Omega_u\rightarrow\mathbb{R}$ と $v: \Omega_v\rightarrow\mathbb{R}$ のような関数の無限次元空間の間の写像にフォーカスする。
これはパラメトリック非線形偏微分方程式(PDE)を解くのに特に適している。
演算子学習のためのほとんどの機械学習手法は、ディープニューラルネットワーク(NN)の変種に依存しているが、近年の研究により、ガウス過程(GP)もまた、解釈可能性と理論的保証を提供しながら競争力があることが示されている。
本稿では,両手法の強みを生かした演算子学習のためのGP/NNベースのハイブリッドフレームワークを提案する。
関数値作用素 $\mathcal{G}^\dagger$ を近似する代わりに、GP を用いて関連する実値双線型形式 $\widetilde{\mathcal{G}}^\dagger: \mathcal{U}\times\mathcal{V}^*\rightarrow\mathbb{R} を近似する。
この双線型形式は $\widetilde{\mathcal{G}}^\dagger(u,\varphi) := [\varphi,\mathcal{G}^\dagger(u)],$で定義され、演算子 $\mathcal{G}^\dagger$ through $\mathcal{G}^\dagger(u)(y)=\widetilde{\mathcal{G}}^\dagger(u,\delta_y) を復元することができる。
GP平均関数は、神経演算子によってゼロあるいはパラメータ化することができ、各設定に対して、任意の物理を利用可能な最大推定(MLE)に基づいた堅牢なトレーニングメカニズムを開発する。
数値ベンチマークにより,(1)GPの平均関数として用いることにより,ベースニューラル演算子の性能が向上し,(2)事前トレーニングなしで正確に予測できるゼロショットデータ駆動モデルが実現された。
我々のフレームワークは、$\mathcal{G}^\dagger:\mathcal{U} \rightarrow\prod_{s=1}^S\mathcal{V}^s$といったマルチ出力演算子も扱う。
関連論文リスト
- Sample and Computationally Efficient Robust Learning of Gaussian Single-Index Models [37.42736399673992]
シングルインデックスモデル (SIM) は $sigma(mathbfwast cdot mathbfx)$ という形式の関数であり、$sigma: mathbbR to mathbbR$ は既知のリンク関数であり、$mathbfwast$ は隠れ単位ベクトルである。
適切な学習者が$L2$-error of $O(mathrmOPT)+epsilon$。
論文 参考訳(メタデータ) (2024-11-08T17:10:38Z) - Scaling Gaussian Processes for Learning Curve Prediction via Latent Kronecker Structure [16.319561844942886]
GPモデルは,学習曲線予測タスクにおいて,トランスフォーマーの性能と一致することを示す。
我々の方法は、$mathcalO(n3 + m3)$ timeと$mathcalO(n2 + m2)$ spaceのみを必要とする。
論文 参考訳(メタデータ) (2024-10-11T20:24:33Z) - Approximation of the Proximal Operator of the $\ell_\infty$ Norm Using a Neural Network [1.7265013728931]
ニューラルネットワークを用いて,$textbfprox_alphacdot||infty(mathbfx)$を近似する。
ネットワークの新たな側面は、特徴選択プロセスにより、様々な長さのベクトルを受け入れることができることである。
特徴選択を使用しない「バニラニューラルネットワーク」よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-20T22:12:30Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Learned Nonlinear Predictor for Critically Sampled 3D Point Cloud
Attribute Compression [24.001318485207207]
我々はデコーダによる3次元点雲圧縮について検討した。
本稿では,$f_l*$をレベル$l+1$,$f_l*$$l$,$G_l*$のエンコーディングを$p=1$で予測する。
論文 参考訳(メタデータ) (2023-11-22T17:26:54Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Kernel Methods are Competitive for Operator Learning [1.4132765964347058]
本稿では,Banach空間間の演算子を学習するためのカーネルベースのフレームワークと,プリオリエラー解析を提案する。
バニラカーネルを使用したとしても、当社のアプローチはコスト-正確性トレードオフの点で競争力があることが示されています。
論文 参考訳(メタデータ) (2023-04-26T00:07:59Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Fast Graph Sampling for Short Video Summarization using Gershgorin Disc
Alignment [52.577757919003844]
高速グラフサンプリングの最近の進歩を利用して,短い動画を複数の段落に効率よく要約する問題について検討する。
実験結果から,本アルゴリズムは最先端の手法と同等の映像要約を実現し,複雑さを大幅に低減した。
論文 参考訳(メタデータ) (2021-10-21T18:43:00Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。