論文の概要: Learning threshold neurons via the "edge of stability"
- arxiv url: http://arxiv.org/abs/2212.07469v1
- Date: Wed, 14 Dec 2022 19:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:14:23.799774
- Title: Learning threshold neurons via the "edge of stability"
- Title(参考訳): 安定の最先端」による閾値ニューロンの学習
- Authors: Kwangjun Ahn, S\'ebastien Bubeck, Sinho Chewi, Yin Tat Lee, Felipe
Suarez, Yi Zhang
- Abstract要約: 既存のニューラルネットワークトレーニングの分析は、非常に少ない学習率という非現実的な仮定の下で運用されることが多い。
安定のエッジ」あるいは「不安定なダイナミクス」は2層ニューラルネットワークで動作する。
本稿では,2層ニューラルネットワークの単純化モデルに対する勾配勾配勾配の詳細な解析を行う。
- 参考スコア(独自算出の注目度): 18.497984115505034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing analyses of neural network training often operate under the
unrealistic assumption of an extremely small learning rate. This lies in stark
contrast to practical wisdom and empirical studies, such as the work of J.
Cohen et al. (ICLR 2021), which exhibit startling new phenomena (the "edge of
stability" or "unstable convergence") and potential benefits for generalization
in the large learning rate regime. Despite a flurry of recent works on this
topic, however, the latter effect is still poorly understood. In this paper, we
take a step towards understanding genuinely non-convex training dynamics with
large learning rates by performing a detailed analysis of gradient descent for
simplified models of two-layer neural networks. For these models, we provably
establish the edge of stability phenomenon and discover a sharp phase
transition for the step size below which the neural network fails to learn
"threshold-like" neurons (i.e., neurons with a non-zero first-layer bias). This
elucidates one possible mechanism by which the edge of stability can in fact
lead to better generalization, as threshold neurons are basic building blocks
with useful inductive bias for many tasks.
- Abstract(参考訳): ニューラルネットワークトレーニングの既存の分析は、非常に小さな学習率の非現実的な仮定の下で実行されることが多い。
これは、J. Cohen et al. (ICLR 2021) のような実践的な知恵や経験的研究とは対照的であり、これは驚くべき新しい現象(「安定性の端」あるいは「不安定な収束」)と大きな学習率体制における一般化の潜在的利益を示すものである。
しかし、この話題に関する最近の研究が盛り上がっているにもかかわらず、後者の影響はいまだに理解されていない。
本稿では,2層ニューラルネットワークの簡易モデルに対して,勾配勾配勾配の詳細な解析を行うことにより,真の非凸学習力学を学習率で理解する。
これらのモデルでは、安定性現象の端を確実に確立し、ニューラルネットワークが"閾値のような"ニューロン(すなわち、ゼロでない第一層バイアスのニューロン)を学習できないステップサイズの鋭い位相遷移を発見する。
これは、閾値ニューロンが多くのタスクで有用な帰納的バイアスを持つ基本的な構成要素であるため、安定性のエッジが実際より良い一般化につながる可能性がある1つのメカニズムを解明する。
関連論文リスト
- Simple and Effective Transfer Learning for Neuro-Symbolic Integration [50.592338727912946]
この問題の潜在的な解決策はNeuro-Symbolic Integration (NeSy)であり、ニューラルアプローチとシンボリック推論を組み合わせる。
これらの手法のほとんどは、認識をシンボルにマッピングするニューラルネットワークと、下流タスクの出力を予測する論理的論理的推論を利用する。
それらは、緩やかな収束、複雑な知覚タスクの学習困難、局所的なミニマへの収束など、いくつかの問題に悩まされている。
本稿では,これらの問題を改善するための簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T15:51:01Z) - Decorrelating neurons using persistence [29.25969187808722]
2つの正規化項は、クリッドの最小スパンニングツリーの重みから計算される。
ニューロン間の相関関係を最小化することで、正規化条件よりも低い精度が得られることを示す。
正規化の可微分性の証明を含むので、最初の効果的なトポロジカルな永続性に基づく正規化用語を開発することができる。
論文 参考訳(メタデータ) (2023-08-09T11:09:14Z) - What Can the Neural Tangent Kernel Tell Us About Adversarial Robustness? [0.0]
ニューラルネットワークとカーネルメソッドを接続する最近の理論の進歩によって得られた分析ツールを用いて、トレーニングされたニューラルネットワークの逆例について研究する。
NTKがいかにして、トレーニングフリーのやり方で敵の例を生成できるかを示し、遅延のやり方で、有限幅のニューラルネットを騙すために移行することを実証する。
論文 参考訳(メタデータ) (2022-10-11T16:11:48Z) - Spiking neural network for nonlinear regression [68.8204255655161]
スパイクニューラルネットワークは、メモリとエネルギー消費を大幅に削減する可能性を持っている。
彼らは、次世代のニューロモルフィックハードウェアによって活用できる時間的および神経的疎結合を導入する。
スパイキングニューラルネットワークを用いた回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:04:45Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Object-based attention for spatio-temporal reasoning: Outperforming
neuro-symbolic models with flexible distributed architectures [15.946511512356878]
適切な帰納的バイアスを持つ完全学習型ニューラルネットワークは,従来のニューラルシンボリックモデルよりもかなり優れた性能を示す。
我々のモデルは、自己意識と学習された「ソフト」オブジェクト中心表現の両方を批判的に利用します。
論文 参考訳(メタデータ) (2020-12-15T18:57:40Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Geometry Perspective Of Estimating Learning Capability Of Neural
Networks [0.0]
本稿では,勾配勾配勾配を用いた最小二乗回帰(SGD)を一般化したニューラルネットワークの幅広いクラスについて考察する。
一般化能力とニューラルネットワークの安定性との関係についても論じている。
ニューラルネットワークの学習理論と高エネルギー物理の原理を関連付けることにより,人工ニューラルネットワークの観点からの複雑性・摩擦予想の変種を確立する。
論文 参考訳(メタデータ) (2020-11-03T12:03:19Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。