論文の概要: Optimizing the optimizer for data driven deep neural networks and
physics informed neural networks
- arxiv url: http://arxiv.org/abs/2205.07430v1
- Date: Mon, 16 May 2022 02:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 00:58:54.442763
- Title: Optimizing the optimizer for data driven deep neural networks and
physics informed neural networks
- Title(参考訳): データ駆動型ディープニューラルネットワークと物理情報ニューラルネットワークのための最適化器の最適化
- Authors: John Taylor, Wenyi Wang, Biswajit Bala, Tomasz Bednarz
- Abstract要約: ニューラルネットワークに適合するモデルの品質を,小~中程度のパラメータで決定する手法について検討する。
LMアルゴリズムは機械の精度に迅速に収束でき、他のアルゴリズムよりも大きな利点があることがわかった。
- 参考スコア(独自算出の注目度): 2.54325834280441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the role of the optimizer in determining the quality of the
model fit for neural networks with a small to medium number of parameters. We
study the performance of Adam, an algorithm for first-order gradient-based
optimization that uses adaptive momentum, the Levenberg and Marquardt (LM)
algorithm a second order method, Broyden,Fletcher,Goldfarb and Shanno algorithm
(BFGS) a second order method and LBFGS, a low memory version of BFGS. Using
these optimizers we fit the function y = sinc(10x) using a neural network with
a few parameters. This function has a variable amplitude and a constant
frequency. We observe that the higher amplitude components of the function are
fitted first and the Adam, BFGS and LBFGS struggle to fit the lower amplitude
components of the function. We also solve the Burgers equation using a physics
informed neural network(PINN) with the BFGS and LM optimizers. For our example
problems with a small to medium number of weights, we find that the LM
algorithm is able to rapidly converge to machine precision offering significant
benefits over other optimizers. We further investigated the Adam optimizer with
a range of models and found that Adam optimiser requires much deeper models
with large numbers of hidden units containing up to 26x more parameters, in
order to achieve a model fit close that achieved by the LM optimizer. The LM
optimizer results illustrate that it may be possible build models with far
fewer parameters. We have implemented all our methods in Keras and TensorFlow
2.
- Abstract(参考訳): パラメータの少ないニューラルネットワークに適合するモデルの品質を決定する上で,オプティマイザが果たす役割について検討する。
適応運動量を用いた一階勾配に基づく最適化のためのアルゴリズムadam,レベンバーグ・マーカルト法(lm)法,ブロイデン法,フレッチャー法,ゴールドファーブ法,シャンノ法(bfgs)法,およびbfgsの低メモリ版lbfgs法の性能について検討した。
これらのオプティマイザを使用することで、いくつかのパラメータを持つニューラルネットワークを使用してy = sinc(10x)関数に適合する。
この関数は可変振幅と一定周波数を持つ。
我々は,関数の高振幅成分が最初に嵌合され,Adam,BFGS,LBFGSは関数の低振幅成分に収まるのに苦労していることを観察した。
また,BFGSとLMオプティマイザを用いた物理情報ニューラルネットワーク(PINN)を用いてバーガース方程式を解く。
少量から中程度の重みを持つ例では、LMアルゴリズムは機械の精度に迅速に収束でき、他の最適化アルゴリズムよりも大きな利点がある。
さらに,Adamオプティマイザを様々なモデルで検討した結果,LMオプティマイザが達成したモデルに適合するためには,最大26倍のパラメータを含む多数の隠れ単位を持つより深いモデルが必要であることがわかった。
LMオプティマイザの結果は、パラメータがはるかに少ないビルドモデルの可能性を示している。
我々はすべてのメソッドをKerasとTensorFlow 2.0で実装しました。
関連論文リスト
- Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Explicit Foundation Model Optimization with Self-Attentive Feed-Forward
Neural Units [4.807347156077897]
バックプロパゲーションを用いた反復近似法はニューラルネットワークの最適化を可能にするが、大規模に使用すると計算コストがかかる。
本稿では、ニューラルネットワークのスケーリングコストを削減し、低リソースアプリケーションに高効率な最適化を提供する、ニューラルネットワークの最適化のための効率的な代替手段を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:55:07Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - Neural Nets with a Newton Conjugate Gradient Method on Multiple GPUs [0.0]
ディープニューラルネットワークのトレーニングは多くの計算センターで計算リソースの共有を消費する。
本稿では,ベクトルのみに対するヘシアンの効果を必要とする新しい二階最適化手法を提案する。
提案手法を5つの代表的ニューラルネットワーク問題に対して2つの最先端技術と比較した。
論文 参考訳(メタデータ) (2022-08-03T12:38:23Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。