論文の概要: Fine-tuning Neural-Operator architectures for training and
generalization
- arxiv url: http://arxiv.org/abs/2301.11509v2
- Date: Wed, 19 Apr 2023 03:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 17:21:03.275630
- Title: Fine-tuning Neural-Operator architectures for training and
generalization
- Title(参考訳): 訓練と一般化のための微調整型ニューラルネットワークアーキテクチャ
- Authors: JA Lara Benitez, Takashi Furuya, Florian Faucher, Xavier Tricoche,
Maarten V. de Hoop
- Abstract要約: この研究は、ニューラル演算子(NOs)とその派生アーキテクチャの一般化特性を包括的に分析する。
Transformersの成功にインスパイアされた$textitstextNO+varepsilon$を提案する。
- 参考スコア(独自算出の注目度): 3.8673567847548114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work provides a comprehensive analysis of the generalization properties
of Neural Operators (NOs) and their derived architectures. Through empirical
evaluation of the test loss, analysis of the complexity-based generalization
bounds, and qualitative assessments of the visualization of the loss landscape,
we investigate modifications aimed at enhancing the generalization capabilities
of NOs. Inspired by the success of Transformers, we propose
${\textit{s}}{\text{NO}}+\varepsilon$, which introduces a kernel integral
operator in lieu of self-Attention. Our results reveal significantly improved
performance across datasets and initializations, accompanied by qualitative
changes in the visualization of the loss landscape. We conjecture that the
layout of Transformers enables the optimization algorithm to find better
minima, and stochastic depth, improve the generalization performance. As a
rigorous analysis of training dynamics is one of the most prominent unsolved
problems in deep learning, our exclusive focus is on the analysis of the
complexity-based generalization of the architectures. Building on statistical
theory, and in particular Dudley theorem, we derive upper bounds on the
Rademacher complexity of NOs, and ${\textit{s}}{\text{NO}}+\varepsilon$. For
the latter, our bounds do not rely on norm control of parameters. This makes it
applicable to networks of any depth, as long as the random variables in the
architecture follow a decay law, which connects stochastic depth with
generalization, as we have conjectured. In contrast, the bounds in NOs, solely
rely on norm control of the parameters, and exhibit an exponential dependence
on depth. Furthermore, our experiments also demonstrate that our proposed
network exhibits remarkable generalization capabilities when subjected to
perturbations in the data distribution. In contrast, NO perform poorly in
out-of-distribution scenarios.
- Abstract(参考訳): この研究は、ニューラル演算子(NOs)とその派生アーキテクチャの一般化特性を包括的に分析する。
テスト損失の実証評価,複雑性に基づく一般化境界の解析,損失景観の可視化の質的評価を通じて,NOの一般化能力の向上を目的とした修正について検討する。
トランスフォーマーの成功に触発されて、自己アテンションの代わりにカーネル積分演算子を導入する${\textit{s}}{\text{no}}+\varepsilon$を提案する。
その結果,データ集合全体の性能と初期化が著しく向上し,損失景観の可視化の質的変化がみられた。
我々はトランスフォーマーのレイアウトにより、最適化アルゴリズムがより優れた最小値と確率的な深さを見つけ、一般化性能を向上させることができると推測する。
トレーニングダイナミクスの厳密な分析は、ディープラーニングにおける最も顕著な未解決問題の1つであり、私たちの排他的焦点は、アーキテクチャの複雑さに基づく一般化の分析である。
統計理論、特にダドリーの定理に基づいて、我々は nos のラデマッハ複雑性の上界と ${\textit{s}}{\text{no}}+\varepsilon$ を導出する。
後者の場合、我々の境界はパラメータのノルム制御に依存しない。
これにより、アーキテクチャ内の確率変数が減衰則に従う限り、任意の深さのネットワークに適用でき、確率的深さと一般化を接続できる。
対照的に、NOsにおける境界はパラメータのノルム制御にのみ依存しており、深さへの指数的な依存を示す。
また,本実験では,提案ネットワークがデータ分布の摂動を受けると顕著な一般化能力を示すことを示す。
対照的に,アウトオブディストリビューションのシナリオでは,パフォーマンスの悪さは発生しない。
関連論文リスト
- Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Robust Low-Rank Matrix Completion via a New Sparsity-Inducing
Regularizer [30.920908325825668]
本稿では,ハイブリッド常連Welsch (HOW) に新たな損失関数を提案する。
論文 参考訳(メタデータ) (2023-10-07T09:47:55Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Nonlinear Reconstruction for Operator Learning of PDEs with
Discontinuities [5.735035463793008]
双曲的および対流的に支配されるPDEの大規模なクラスは、不連続性を伴う解を持つことができる。
我々は, 線形再構成ステップを含む手法がPDEの解演算子を効率的に近似できないことを, より低い近似バウンダリの観点から厳密に証明する。
非線形再構成機構を用いることで,これらの基本的下界を克服し,基礎となる演算子を効率的に近似することができることを示す。
論文 参考訳(メタデータ) (2022-10-03T16:47:56Z) - Semi-supervised Invertible DeepONets for Bayesian Inverse Problems [8.594140167290098]
DeepONetsは、学習オペレーターによってパラメトリックPDEを解決する強力なデータ駆動ツールを提供する。
本研究では,高次元ベイズ逆問題(Bayesian inverse problem)の文脈で物理インフォームド・ディープノネット(DeepONets)を用いる。
論文 参考訳(メタデータ) (2022-09-06T18:55:06Z) - Approximate Bayesian Neural Operators: Uncertainty Quantification for
Parametric PDEs [34.179984253109346]
ニューラル作用素の'hallow'(線形)バージョンを数学的に詳細に定式化する。
次に、ベイズ深層学習の近似手法を用いて、この解析処理を一般のディープニューラル演算子に拡張する。
その結果, ニューラル演算子の予測に失敗するケースを同定し, 構造的不確実性推定を行うことができた。
論文 参考訳(メタデータ) (2022-08-02T16:10:27Z) - Learning Dynamical Systems via Koopman Operator Regression in
Reproducing Kernel Hilbert Spaces [52.35063796758121]
動的システムの有限データ軌跡からクープマン作用素を学ぶためのフレームワークを定式化する。
リスクとクープマン作用素のスペクトル分解の推定を関連付ける。
以上の結果から,RRRは他の広く用いられている推定値よりも有益である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-27T14:57:48Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。