論文の概要: Training a Two Layer ReLU Network Analytically
- arxiv url: http://arxiv.org/abs/2304.02972v1
- Date: Thu, 6 Apr 2023 09:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:40:11.933100
- Title: Training a Two Layer ReLU Network Analytically
- Title(参考訳): 2層ReLUネットワークの解析的学習
- Authors: Adrian Barbu
- Abstract要約: 我々は、ReLUのような活性化と正方形損失を伴う2層ニューラルネットワークのトレーニングアルゴリズムについて検討する。
この方法は勾配降下法よりも高速で、チューニングパラメータがほとんどない。
- 参考スコア(独自算出の注目度): 4.94950858749529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks are usually trained with different variants of gradient
descent based optimization algorithms such as stochastic gradient descent or
the Adam optimizer. Recent theoretical work states that the critical points
(where the gradient of the loss is zero) of two-layer ReLU networks with the
square loss are not all local minima. However, in this work we will explore an
algorithm for training two-layer neural networks with ReLU-like activation and
the square loss that alternatively finds the critical points of the loss
function analytically for one layer while keeping the other layer and the
neuron activation pattern fixed. Experiments indicate that this simple
algorithm can find deeper optima than Stochastic Gradient Descent or the Adam
optimizer, obtaining significantly smaller training loss values on four out of
the five real datasets evaluated. Moreover, the method is faster than the
gradient descent methods and has virtually no tuning parameters.
- Abstract(参考訳): ニューラルネットワークは通常、確率勾配降下やアダム最適化のような勾配勾配に基づく最適化アルゴリズムの異なる変種で訓練される。
最近の理論研究では、2層reluネットワークの正方形損失を持つ臨界点(損失の勾配がゼロである)はすべて局所的ミニマではない。
そこで本研究では,reluライクなアクティベーションと正方形損失を用いて2層ニューラルネットワークを訓練するアルゴリズムについて検討し,他のレイヤとニューロンのアクティベーションパターンを固定しつつ,損失関数の臨界点を解析的に求める。
実験により、この単純なアルゴリズムは確率勾配DescentやAdamオプティマイザよりも深い最適化を見出すことができ、評価された5つの実データセットのうち4つに対して、トレーニング損失値が大幅に小さいことが示されている。
さらに,本手法は勾配降下法よりも高速であり,チューニングパラメータがほとんどない。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Revisiting Recursive Least Squares for Training Deep Neural Networks [10.44340837533087]
再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。
従来のRSSアルゴリズムは、計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。
本稿では,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワークの3つの新しいRSS最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-07T17:43:51Z) - The layer-wise L1 Loss Landscape of Neural Nets is more complex around
local minima [3.04585143845864]
我々はDeep ReLU Simplexアルゴリズムを用いて隣接頂点における損失を単調に最小化する。
局所最小値の周りの近所では、反復は、損失レベルと局所最小値の近接に関する結論が発見される前に行われるように異なる行動をとる。
これは新しい勾配-descentアルゴリズムの設計に広範な影響をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-05-06T17:18:44Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - The duality structure gradient descent algorithm: analysis and applications to neural networks [0.0]
本稿では,非漸近的性能解析に寄与する双対構造勾配降下法(DSGD)を提案する。
いくつかのニューラルネットワークトレーニングシナリオにおいて,DSGDの動作を実証的に示す。
論文 参考訳(メタデータ) (2017-08-01T21:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。