論文の概要: Decoupled-Value Attention for Prior-Data Fitted Networks: GP Inference for Physical Equations
- arxiv url: http://arxiv.org/abs/2509.20950v1
- Date: Thu, 25 Sep 2025 09:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.824018
- Title: Decoupled-Value Attention for Prior-Data Fitted Networks: GP Inference for Physical Equations
- Title(参考訳): 事前データ整合ネットワークに対するデカップリング値の注意:物理方程式のGP推論
- Authors: Kaustubh Sharma, Simardeep Singh, Parikshit Pareek,
- Abstract要約: PFNは、物理系の高速サロゲートを生成するための時間消費ガウス過程(GP)推論の代替として有望である。
本稿では,DVA(Decoupled-Value Attention)を導入し,関数空間が入力上のカーネルによって完全に特徴付けられるというGP特性を動機とした。
PFNをスケールする上で重要な要素は,アーキテクチャ自体よりもアテンションルールにあることを実証する。
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior-data fitted networks (PFNs) are a promising alternative to time-consuming Gaussian Process (GP) inference for creating fast surrogates of physical systems. PFN reduces the computational burden of GP-training by replacing Bayesian inference in GP with a single forward pass of a learned prediction model. However, with standard Transformer attention, PFNs show limited effectiveness on high-dimensional regression tasks. We introduce Decoupled-Value Attention (DVA)-- motivated by the GP property that the function space is fully characterized by the kernel over inputs and the predictive mean is a weighted sum of training targets. DVA computes similarities from inputs only and propagates labels solely through values. Thus, the proposed DVA mirrors the Gaussian-process update while remaining kernel-free. We demonstrate that the crucial factor for scaling PFNs is the attention rule rather than the architecture itself. Specifically, our results demonstrate that (a) localized attention consistently reduces out-of-sample validation loss in PFNs across different dimensional settings, with validation loss reduced by more than 50% in five- and ten-dimensional cases, and (b) the role of attention is more decisive than the choice of backbone architecture, showing that CNN-based PFNs can perform at par with their Transformer-based counterparts. The proposed PFNs provide 64-dimensional power flow equation approximations with a mean absolute error of the order of 1E-3, while being over 80x faster than exact GP inference.
- Abstract(参考訳): PFNは、物理系の高速サロゲートを生成するための時間消費ガウス過程(GP)推論の代替として有望である。
PFNは、GPにおけるベイズ推論を学習予測モデルの1つの前方通過に置き換えることで、GPトレーニングの計算負担を軽減する。
しかし,PFNは標準変換器の注意を払って,高次元回帰タスクにおいて限られた有効性を示す。
本稿では,DVA(Decoupled-Value Attention)を提案する。GP特性により,関数空間は入力上のカーネルによって完全に特徴付けられ,予測平均はトレーニング対象の重み付け和である。
DVAは入力のみから類似性を計算し、ラベルを値のみで伝播する。
このように提案されたDVAは、カーネルフリーのまま、ガウスプロセスの更新を反映している。
PFNをスケールする上で重要な要素は,アーキテクチャ自体よりもアテンションルールにあることを実証する。
特に我々の研究結果は
(a)局所的注意は、5次元・10次元のケースでは50%以上の検証損失が減少し、PFNの外部検証損失を連続的に減少させる。
b) 注目の役割はバックボーンアーキテクチャの選択よりも決定的であり,CNNベースのPFNはTransformerベースのアーキテクチャと同等に動作可能であることを示す。
提案したPFNは、1E-3のオーダーの平均絶対誤差を64次元の潮流方程式で近似するが、正確なGP推定より80倍以上高速である。
関連論文リスト
- Scalable Gaussian Processes with Low-Rank Deep Kernel Decomposition [7.532273334759435]
カーネルはガウス過程(GP)モデルにおいて、事前の信念とデータ構造を符号化する鍵である。
ディープカーネル学習は、標準的なパラメトリック形式を適用する前に、ニューラルネットワークを介して入力を入力することで、カーネルの柔軟性を向上させる。
我々は、ニューラルネットワークが直接低ランクカーネルを表現する、完全にデータ駆動でスケーラブルなディープカーネル表現を導入する。
論文 参考訳(メタデータ) (2025-05-24T05:42:11Z) - Neighbour-Driven Gaussian Process Variational Autoencoders for Scalable Structured Latent Modelling [14.358070928996069]
ガウス過程 (GP) 変分オートエンコーダ (VAEs) は、完全に分解されたガウス前処理をGP前処理に置き換えることで標準のVAEを拡張する。
大規模GPVAEにおける正確なGP推論の実行は、計算的に禁止されており、しばしば既存のアプローチは制限的なカーネルの仮定に頼らざるを得ない。
本稿では,拡張性のあるGPVAE推論を実現するために,潜在空間における局所的隣接性を利用する近似手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:07:33Z) - Fixed-Mean Gaussian Processes for Post-hoc Bayesian Deep Learning [11.22428369342346]
普遍カーネルを用いた場合、後続平均を任意の連続関数に固定する、スパース変分ガウス過程(GP)の新たなファミリを導入する。
具体的には、このGPの平均値を事前学習したDNNの出力に固定し、GPの予測分散を効果的に適合させて予測の不確かさを推定する。
実験の結果,FMGPは最先端手法と比較して不確実性評価と計算効率を両立させることがわかった。
論文 参考訳(メタデータ) (2024-12-05T14:17:16Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural
Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。
提案されたSIDNNは、幅広いOPFスキームと互換性がある。
他のLearning-to-OPFスキームとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-03-27T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。