論文の概要: Neural Network Training Using $\ell_1$-Regularization and Bi-fidelity
Data
- arxiv url: http://arxiv.org/abs/2105.13011v1
- Date: Thu, 27 May 2021 08:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:35:26.767710
- Title: Neural Network Training Using $\ell_1$-Regularization and Bi-fidelity
Data
- Title(参考訳): $\ell_1$-regularizationとbi-fidelityデータを用いたニューラルネットワークトレーニング
- Authors: Subhayan De and Alireza Doostan
- Abstract要約: 高忠実度モデルからの小さなトレーニングデータセットのみが利用可能である場合、スペーサがニューラルネットワークのトレーニングに$ell_$-regularizationを促進させる効果について検討する。
本稿では,問題の低忠実度モデルから得られたデータを用いて訓練した同一ネットワークのパラメータから,$ell_$-regularizationの2つの変種について考察する。
これらのバイフィダリティ戦略は、大きな低フィダリティデータセットから学習したパラメータを使用して、小さな高フィダリティデータセットのためにネットワークを効率的にトレーニングするニューラルネットワークの転送学習の一般化である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the capability of accurately representing a functional relationship
between the inputs of a physical system's model and output quantities of
interest, neural networks have become popular for surrogate modeling in
scientific applications. However, as these networks are over-parameterized,
their training often requires a large amount of data. To prevent overfitting
and improve generalization error, regularization based on, e.g., $\ell_1$- and
$\ell_2$-norms of the parameters is applied. Similarly, multiple connections of
the network may be pruned to increase sparsity in the network parameters. In
this paper, we explore the effects of sparsity promoting
$\ell_1$-regularization on training neural networks when only a small training
dataset from a high-fidelity model is available. As opposed to standard
$\ell_1$-regularization that is known to be inadequate, we consider two
variants of $\ell_1$-regularization informed by the parameters of an identical
network trained using data from lower-fidelity models of the problem at hand.
These bi-fidelity strategies are generalizations of transfer learning of neural
networks that uses the parameters learned from a large low-fidelity dataset to
efficiently train networks for a small high-fidelity dataset. We also compare
the bi-fidelity strategies with two $\ell_1$-regularization methods that only
use the high-fidelity dataset. Three numerical examples for propagating
uncertainty through physical systems are used to show that the proposed
bi-fidelity $\ell_1$-regularization strategies produce errors that are one
order of magnitude smaller than those of networks trained only using datasets
from the high-fidelity models.
- Abstract(参考訳): 物理系のモデルの入力と興味の出力との間の機能的関係を正確に表現する能力により、ニューラルネットワークは科学応用における代理モデリングに人気がある。
しかしながら、これらのネットワークは過パラメータ化されているため、トレーニングには大量のデータを必要とすることが多い。
オーバーフィッティングを防止し、一般化誤差を改善するために、パラメータの$\ell_1$- および $\ell_2$-norms に基づく正規化を適用する。
同様に、ネットワークの複数の接続をprunしてネットワークパラメータのスパーシティを高めることもできる。
本稿では,高忠実度モデルから少量のトレーニングデータセットのみを利用できる場合,ニューラルネットワークのトレーニングに$\ell_1$-regularizationを助長するスパーシリティの効果について検討する。
標準の$\ell_1$-regularizationが不十分であることが知られているのに対し、問題の低忠実度モデルからのデータを用いて訓練された同一ネットワークのパラメータから入力される$\ell_1$-regularizationの2つの変種を考える。
これらのバイフィデリティ戦略は、大きな低フィデリティデータセットから学んだパラメータを使用して、小さな高フィデリティデータセットのためにネットワークを効率的にトレーニングするニューラルネットワークの転送学習の一般化である。
また,高忠実度データセットのみを使用する2つの$\ell_1$-regularization手法との比較を行った。
物理系を介して不確実性を伝播する3つの数値的な例を用いて、提案した二相性$\ell_1$-regularization戦略が、高忠実度モデルからのデータセットのみを用いてトレーニングされたネットワークの1桁の誤差を生成することを示す。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Residual Multi-Fidelity Neural Network Computing [0.0]
残差関数としてモデル間の相関を定式化する残差多忠実計算フレームワークを提案する。
計算コストの劇的な削減は、出力予測が小さな許容範囲内で正確であることを望んでいれば達成できることを示す。
論文 参考訳(メタデータ) (2023-10-05T14:43:16Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Robustness Certificates for Implicit Neural Networks: A Mixed Monotone
Contractive Approach [60.67748036747221]
暗黙のニューラルネットワークは、競合性能とメモリ消費の削減を提供する。
入力逆流の摂動に関して、それらは不安定なままである。
本稿では,暗黙的ニューラルネットワークのロバスト性検証のための理論的および計算的枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-10T03:08:55Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Multi-fidelity regression using artificial neural networks: efficient
approximation of parameter-dependent output quantities [0.17499351967216337]
本稿では,多元性回帰問題に対するニューラルネットワークの利用について述べる。
導入されたモデルは、従来のマルチファイアリティスキームと比較されます。
また、工学的問題に対するマルチファイダリグレッションの適用も示します。
論文 参考訳(メタデータ) (2021-02-26T11:29:00Z) - Ensembled sparse-input hierarchical networks for high-dimensional
datasets [8.629912408966145]
サンプルサイズが小さい環境では,高密度ニューラルネットワークが実用的なデータ解析ツールであることを示す。
提案手法は,L1-ペナルティパラメータを2つだけ調整することで,ネットワーク構造を適切に調整する。
EASIER-netは、異なるサイズの実世界のデータセットのコレクションにおいて、データ適応方式でネットワークアーキテクチャを選択し、平均的なオフザシェルフ手法よりも高い予測精度を達成した。
論文 参考訳(メタデータ) (2020-05-11T02:08:53Z) - On transfer learning of neural networks using bi-fidelity data for
uncertainty propagation [0.0]
本研究では,高忠実度モデルと低忠実度モデルの両方から生成された学習データを用いた伝達学習手法の適用について検討する。
前者のアプローチでは、低忠実度データに基づいて、入力を関心の出力にマッピングするニューラルネットワークモデルを訓練する。
次に、高忠実度データを使用して、低忠実度ネットワークの上層(s)のパラメータを適応させたり、より単純なニューラルネットワークをトレーニングして、低忠実度ネットワークの出力を高忠実度モデルのパラメータにマッピングする。
論文 参考訳(メタデータ) (2020-02-11T15:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。