論文の概要: LocoProp: Enhancing BackProp via Local Loss Optimization
- arxiv url: http://arxiv.org/abs/2106.06199v1
- Date: Fri, 11 Jun 2021 07:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:10:29.099628
- Title: LocoProp: Enhancing BackProp via Local Loss Optimization
- Title(参考訳): LocoProp: ローカルロス最適化によるBackPropの強化
- Authors: Ehsan Amid, Rohan Anil, and Manfred K. Warmuth
- Abstract要約: ニューラルネットワークの最適化のための局所的損失構築手法について検討する。
我々は, コンバージェンスを継続的に改善し, 第一次法と第二次法のギャップを小さくすることを示した。
- 参考スコア(独自算出の注目度): 27.93980177594535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a local loss construction approach for optimizing neural networks.
We start by motivating the problem as minimizing a squared loss between the
pre-activations of each layer and a local target, plus a regularizer term on
the weights. The targets are chosen so that the first gradient descent step on
the local objectives recovers vanilla BackProp, while the exact solution to
each problem results in a preconditioned gradient update. We improve the local
loss construction by forming a Bregman divergence in each layer tailored to the
transfer function which keeps the local problem convex w.r.t. the weights. The
generalized local problem is again solved iteratively by taking small gradient
descent steps on the weights, for which the first step recovers BackProp. We
run several ablations and show that our construction consistently improves
convergence, reducing the gap between first-order and second-order methods.
- Abstract(参考訳): ニューラルネットワークの最適化のための局所損失構築手法について検討する。
まず、各層と局所目標の事前活性化の2乗損失を最小化し、さらに重み付けの正則化項を最小化する。
ターゲットは、ローカル目的の最初の勾配降下ステップがバニラバックプロップを回復するように選択され、各問題に対する正確な解決策は、事前条件付き勾配更新をもたらす。
局所問題凸w.r.tを維持する伝達関数に合わせて各層にブレグマン分散を形成することにより局所損失構造を改善する。
重さだ
一般化された局所問題は、第1ステップがBackPropを回復するウェイト上の小さな勾配降下ステップをとることで繰り返し解決される。
我々はいくつかの改善を行い、コンバージェンスを継続的に改善し、一階法と二階法のギャップを小さくすることを示す。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - The layer-wise L1 Loss Landscape of Neural Nets is more complex around
local minima [3.04585143845864]
我々はDeep ReLU Simplexアルゴリズムを用いて隣接頂点における損失を単調に最小化する。
局所最小値の周りの近所では、反復は、損失レベルと局所最小値の近接に関する結論が発見される前に行われるように異なる行動をとる。
これは新しい勾配-descentアルゴリズムの設計に広範な影響をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-05-06T17:18:44Z) - Activation Relaxation: A Local Dynamical Approximation to
Backpropagation in the Brain [62.997667081978825]
活性化緩和(AR)は、バックプロパゲーション勾配を力学系の平衡点として構成することで動機付けられる。
我々のアルゴリズムは、正しいバックプロパゲーション勾配に迅速かつ堅牢に収束し、単一のタイプの計算単位しか必要とせず、任意の計算グラフで操作できる。
論文 参考訳(メタデータ) (2020-09-11T11:56:34Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z) - How Implicit Regularization of ReLU Neural Networks Characterizes the
Learned Function -- Part I: the 1-D Case of Two Layers with Random First
Layer [5.969858080492586]
重みをランダムに選択し、終端層のみをトレーニングする1次元(浅)ReLUニューラルネットワークを考える。
そのようなネットワークにおいて、L2-正則化回帰は関数空間において、かなり一般の損失汎関数に対する推定の第2微分を正則化するために対応することを示す。
論文 参考訳(メタデータ) (2019-11-07T13:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。