論文の概要: Three Costs of Amortizing Gaussian Process Inference with Neural Processes
- arxiv url: http://arxiv.org/abs/2605.21798v1
- Date: Wed, 20 May 2026 22:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.017274
- Title: Three Costs of Amortizing Gaussian Process Inference with Neural Processes
- Title(参考訳): ニューラルプロセスを用いたガウス過程推定の3つのコスト
- Authors: Robin Young,
- Abstract要約: ニューラルネットワークはガウス過程の推論を補正し、正確な$O(n3)$後方を文脈集合から予測分布への学習された$O(n)$マップに置き換える。
潜在神経過程のクラスでは、GPとLNPの間でKL(Kullback--Leibler)の分岐を3つの解釈可能なソースに分解する。
これらの結果は,GP-アモタイズ体制において,分析クラス内でのアモーティゼーションのコストを特徴付けるとともに,文脈位置からのばらつきを予測するためのアーキテクチャ勧告を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural processes amortize Gaussian process inference, replacing the exact $O(n^3)$ posterior with a learned $O(n)$ map from context sets to predictive distributions. For a class of latent neural processes, we bound the Kullback--Leibler (KL) divergence between the GP and LNP predictives, decomposing it into three interpretable sources, namely label contamination as the neural process uses label values to estimate a quantity that is label-independent in the exact GP, an information bottleneck because the finite-dimensional representation cannot resolve the full context geometry, and amortization error from a single encoder network shared across all contexts. The bottleneck truncation term decays in the representation dimension $d$ as $O(e^{-cd^{2/d_x}})$ for squared-exponential kernels on $\mathbb{R}^{d_x}$ where $c > 0$ is a kernel-dependent constant and as $O(d^{-2ν/d_x})$ for Matérn-$ν$ kernels, directly linking architecture sizing to kernel smoothness and input dimension. The label contamination term is $O(1)$ in general, with only the observation-noise component decaying as $O(1/n)$, identifying a persistent cost of routing uncertainty estimation through a label-dependent representation. These results characterize the costs of amortization within the analyzed class and yield architectural recommendations to predict variance from context locations alone in the GP-amortization regime, and replace mean aggregation with second-order pooling to close the dominant amortization gap.
- Abstract(参考訳): ニューラルプロセスはガウス過程の推論を補正し、正確な$O(n^3)$後方を文脈集合から予測分布への学習された$O(n)$マップに置き換える。
遅延型ニューラルプロセスのクラスでは、GP と LNP の予測値間のKullback-Leibler (KL) のばらつきを結合し、3つの解釈可能なソースに分解する。すなわち、ニューラルネットワークがラベルの汚染を利用して、正確な GP にラベルに依存しない量を推定する。
ボトルネック・トランケーション項は、表現次元$d$ as $O(e^{-cd^{2/d_x}})$ for squared-exponential kernels on $\mathbb{R}^{d_x}$ where $c > 0$ is a kernel-dependent constant and as $O(d^{-2ν/d_x})$ for Matérn-$ν$ kernels, direct linking architecture Sizing to kernel smoothness and input dimension.
ラベル汚染項は一般に$O(1)$であり、観測ノイズ成分のみが$O(1/n)$として崩壊し、ラベル依存表現を通じて不確実性推定をルーティングする持続コストを特定する。
これらの結果は,分析クラス内でのアモート化のコストを特徴付けるとともに,GP-アモート化体制のみでのコンテキスト位置のばらつきを予測し,二階プールによる平均アグリゲーションを置き換えて,支配的アモート化ギャップを埋めるアーキテクチャレコメンデーションを提供する。
関連論文リスト
- Collective Kernel EFT for Pre-activation ResNets [0.20625936401496234]
有限幅ディープニューラルネットワークでは、経験的カーネル$G$が層間で進化する。
プリアクティベーション ResNets のための集合カーネル有効場理論 (EFT) を$G$のみのクロージャ階層に基づいて開発し,その有限クロージャウィンドウの診断を行う。
論文 参考訳(メタデータ) (2026-04-17T06:31:50Z) - Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Semidefinite programming relaxations and debiasing for MAXCUT-based clustering [1.9761774213809036]
2つのガウス分布を$mathbbRp$で混合して引き出す小さなデータサンプルを$n$で分割する問題を考察する。
グラフ上の最大カットを求めるように定式化された整数二次プログラムの半定値プログラミング緩和を用いる。
論文 参考訳(メタデータ) (2024-01-16T03:14:24Z) - High-Dimensional Smoothed Entropy Estimation via Dimensionality
Reduction [14.53979700025531]
微分エントロピー$h(X+Z)$を独立に$n$で推定し、同じ分散サンプルを$X$とする。
絶対誤差損失では、上記の問題はパラメータ推定率$fraccDsqrtn$である。
我々は、エントロピー推定の前に主成分分析(PCA)を通して低次元空間に$X$を投影することで、この指数的なサンプル複雑性を克服する。
論文 参考訳(メタデータ) (2023-05-08T13:51:48Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。