論文の概要: Fine-tuning Neural-Operator architectures for training and
generalization
- arxiv url: http://arxiv.org/abs/2301.11509v1
- Date: Fri, 27 Jan 2023 03:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:30:14.665152
- Title: Fine-tuning Neural-Operator architectures for training and
generalization
- Title(参考訳): 訓練と一般化のための微調整型ニューラルネットワークアーキテクチャ
- Authors: Jose Antonio Lara Benitez, Takashi Furuya, Florian Faucher, Xavier
Tricoche, Maarten V. de Hoop
- Abstract要約: 本稿では,ニューラル演算子(NOs)と導出アーキテクチャの一般化について分析する。
我々はNOのレイアウトをTransformerに似たアーキテクチャに修正する。
結果として得られるネットワークは普遍性を保ち、見つからないデータや、NOと同じような数のパラメータを一般化する。
- 参考スコア(独自算出の注目度): 3.8673567847548114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present an analysis of the generalization of Neural
Operators (NOs) and derived architectures. We proposed a family of networks,
which we name (${\textit{s}}{\text{NO}}+\varepsilon$), where we modify the
layout of NOs towards an architecture resembling a Transformer; mainly, we
substitute the Attention module with the Integral Operator part of NOs. The
resulting network preserves universality, has a better generalization to unseen
data, and similar number of parameters as NOs. On the one hand, we study
numerically the generalization by gradually transforming NOs into
${\textit{s}}{\text{NO}}+\varepsilon$ and verifying a reduction of the test
loss considering a time-harmonic wave dataset with different frequencies. We
perform the following changes in NOs: (a) we split the Integral Operator
(non-local) and the (local) feed-forward network (MLP) into different layers,
generating a {\it sequential} structure which we call sequential Neural
Operator (${\textit{s}}{\text{NO}}$), (b) we add the skip connection, and layer
normalization in ${\textit{s}}{\text{NO}}$, and (c) we incorporate dropout and
stochastic depth that allows us to generate deep networks. In each case, we
observe a decrease in the test loss in a wide variety of initialization,
indicating that our changes outperform the NO. On the other hand, building on
infinite-dimensional Statistics, and in particular the Dudley Theorem, we
provide bounds of the Rademacher complexity of NOs and
${\textit{s}}{\text{NO}}$, and we find the following relationship: the upper
bound of the Rademacher complexity of the ${\textit{s}}{\text{NO}}$ is a
lower-bound of the NOs, thereby, the generalization error bound of
${\textit{s}}{\text{NO}}$ is smaller than NO, which further strengthens our
numerical results.
- Abstract(参考訳): 本稿では,ニューラル演算子(nos)と派生アーキテクチャの一般化に関する解析を行う。
そこで我々は、NOsのレイアウトをTransformerに似たアーキテクチャへ変更し、主にNOsのIntegtal Operator部分でAttentionモジュールを置換するネットワークのファミリー({\textit{s}}{\text{NO}}+\varepsilon$)を提案しました。
結果として得られるネットワークは普遍性を保ち、見つからないデータや、NOと同じような数のパラメータを一般化する。
一方,NOsを次々に${\textit{s}}{\text{NO}}+\varepsilon$に変換し,周波数の異なる時間高調波データセットを考慮したテスト損失の低減を検証することにより,一般化を数値的に検討する。
nosでは以下の変更を行います。
(a)Integral Operator(非ローカル)と(ローカル)フィードフォワードネットワーク(MLP)を異なるレイヤに分割し、シーケンシャルなNeural Operator({\textit{s}}{\text{NO}}$)と呼ばれる構造を生成する。
b) ${\textit{s}}{\text{NO}}$, and で、スキップ接続とレイヤ正規化を追加します。
(c) 深いネットワークを生成するためのドロップアウトと確率的な深さを組み込む。
いずれの場合も, 様々な初期化におけるテスト損失の減少が観察され, その変化がNOを上回っていることが示唆された。
一方、無限次元統計学、特にダドリー定理に基づいて、NOs と ${\textit{s}}{\text{NO}}$ のラデマッハ複雑性の境界を提供し、以下の関係を求める: ${\textit{s}}{\text{NO}}$ のラデマッハ複雑性の上界は NO の下界であり、従って ${\textit{s}}{\text{NO}}$ の一般化誤差は NO よりも小さい。
関連論文リスト
- Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Robust Low-Rank Matrix Completion via a New Sparsity-Inducing
Regularizer [30.920908325825668]
本稿では,ハイブリッド常連Welsch (HOW) に新たな損失関数を提案する。
論文 参考訳(メタデータ) (2023-10-07T09:47:55Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Nonlinear Reconstruction for Operator Learning of PDEs with
Discontinuities [5.735035463793008]
双曲的および対流的に支配されるPDEの大規模なクラスは、不連続性を伴う解を持つことができる。
我々は, 線形再構成ステップを含む手法がPDEの解演算子を効率的に近似できないことを, より低い近似バウンダリの観点から厳密に証明する。
非線形再構成機構を用いることで,これらの基本的下界を克服し,基礎となる演算子を効率的に近似することができることを示す。
論文 参考訳(メタデータ) (2022-10-03T16:47:56Z) - Semi-supervised Invertible DeepONets for Bayesian Inverse Problems [8.594140167290098]
DeepONetsは、学習オペレーターによってパラメトリックPDEを解決する強力なデータ駆動ツールを提供する。
本研究では,高次元ベイズ逆問題(Bayesian inverse problem)の文脈で物理インフォームド・ディープノネット(DeepONets)を用いる。
論文 参考訳(メタデータ) (2022-09-06T18:55:06Z) - Approximate Bayesian Neural Operators: Uncertainty Quantification for
Parametric PDEs [34.179984253109346]
ニューラル作用素の'hallow'(線形)バージョンを数学的に詳細に定式化する。
次に、ベイズ深層学習の近似手法を用いて、この解析処理を一般のディープニューラル演算子に拡張する。
その結果, ニューラル演算子の予測に失敗するケースを同定し, 構造的不確実性推定を行うことができた。
論文 参考訳(メタデータ) (2022-08-02T16:10:27Z) - Learning Dynamical Systems via Koopman Operator Regression in
Reproducing Kernel Hilbert Spaces [52.35063796758121]
動的システムの有限データ軌跡からクープマン作用素を学ぶためのフレームワークを定式化する。
リスクとクープマン作用素のスペクトル分解の推定を関連付ける。
以上の結果から,RRRは他の広く用いられている推定値よりも有益である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-27T14:57:48Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。