論文の概要: Training Dynamics of Deep Network Linear Regions
- arxiv url: http://arxiv.org/abs/2310.12977v1
- Date: Thu, 19 Oct 2023 17:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:34:16.548073
- Title: Training Dynamics of Deep Network Linear Regions
- Title(参考訳): ディープネットワーク線形領域のトレーニングダイナミクス
- Authors: Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk
- Abstract要約: 連続的な部分分割DNによって形成される入力空間分割や線形領域のトレーニングダイナミクスを考察する。
異なるLC位相がDNの記憶および一般化性能と密接に関係していることが観察された。
- 参考スコア(独自算出の注目度): 16.744355590181986
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The study of Deep Network (DN) training dynamics has largely focused on the
evolution of the loss function, evaluated on or around train and test set data
points. In fact, many DN phenomenon were first introduced in literature with
that respect, e.g., double descent, grokking. In this study, we look at the
training dynamics of the input space partition or linear regions formed by
continuous piecewise affine DNs, e.g., networks with (leaky)ReLU
nonlinearities. First, we present a novel statistic that encompasses the local
complexity (LC) of the DN based on the concentration of linear regions inside
arbitrary dimensional neighborhoods around data points. We observe that during
training, the LC around data points undergoes a number of phases, starting with
a decreasing trend after initialization, followed by an ascent and ending with
a final descending trend. Using exact visualization methods, we come across the
perplexing observation that during the final LC descent phase of training,
linear regions migrate away from training and test samples towards the decision
boundary, making the DN input-output nearly linear everywhere else. We also
observe that the different LC phases are closely related to the memorization
and generalization performance of the DN, especially during grokking.
- Abstract(参考訳): ディープネットワーク(DN)トレーニングダイナミクスの研究は、損失関数の進化に大きく焦点を合わせ、列車やテストセットのデータポイントの周辺で評価されている。
実際、多くのDN現象が文献で最初に導入されたのは、例えば二重降下、グラッキングなどである。
本研究では,連続的なアフィンdnsによって形成される入力空間分割あるいは線形領域のトレーニングダイナミクス,例えば(リーキー)レルル非線形性を持つネットワークについて検討する。
まず,DNの局所的複雑性(LC)を,データ点周辺の任意の次元近傍における線形領域の濃度に基づいて包含する新しい統計法を提案する。
トレーニング中、データポイント周辺のlcは、初期化後のトレンドの低下から始まり、上昇し、最終下降傾向で終わるという、いくつかのフェーズを経ることを観察した。
正確な可視化手法を用いて、トレーニングの最終lc降下フェーズの間、リニア領域はトレーニングやテストサンプルから離れ、決定境界に向かって移動し、dn入力出力を他のあらゆる場所でほぼ線形にすることを発見した。
また,DNの記憶と一般化性能,特にグルーキング時のLC位相が密接に関連していることも確認した。
関連論文リスト
- Local Convergence of Gradient Descent-Ascent for Training Generative
Adversarial Networks [20.362912591032636]
本稿では,GANをカーネルベース判別器で訓練するための勾配降下度(GDA)の局所的ダイナミクスについて検討する。
システムがいつ収束するか、振動するか、あるいは分岐するかを示す相転移を示す。
論文 参考訳(メタデータ) (2023-05-14T23:23:08Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Nonlinear Advantage: Trained Networks Might Not Be As Complex as You
Think [0.0]
性能崩壊前の線形性に対するネットワーク機能をいかに単純化できるかを考察する。
訓練後, 高い性能を維持しつつ, かなりの数の非線形ユニットを線形化できることが判明した。
空間的圧力下では、残りの非線形ユニットは異なる構造に整理され、ほぼ一定の有効深さと幅のコアネットを形成する。
論文 参考訳(メタデータ) (2022-11-30T17:24:14Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Bounding The Number of Linear Regions in Local Area for Neural Networks
with ReLU Activations [6.4817648240626005]
本稿では,与えられたReLUニューラルネットワークの入力空間内の任意の球面における線形領域数の上界を推定する最初の手法を提案する。
実験の結果、ニューラルネットワークをトレーニングしている間、線形領域の境界はトレーニングデータポイントから離れる傾向にあることがわかった。
論文 参考訳(メタデータ) (2020-07-14T04:06:00Z) - On the Global Convergence of Training Deep Linear ResNets [104.76256863926629]
我々は、$L$-hidden-layer linear residual network(ResNets)のトレーニングのための勾配降下(GD)と勾配降下(SGD)の収束について検討する。
入力層と出力層で一定の線形変換を施したディープ残差ネットワークのトレーニングを行う場合,GDとSGDは共に,トレーニング損失の最小限に収束できることを示す。
論文 参考訳(メタデータ) (2020-03-02T18:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。