論文の概要: Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model
- arxiv url: http://arxiv.org/abs/2404.06106v1
- Date: Tue, 9 Apr 2024 08:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:29:31.360847
- Title: Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model
- Title(参考訳): 深い線形非拘束特徴モデルによるディープラーニングにおける低次元観測の統一
- Authors: Connall Garrod, Jonathan P. Keating,
- Abstract要約: 深部ニューラルネットワークの重み,ヘッセン,勾配,特徴ベクトルの低次元構造について検討した。
一般化された制約のない特徴モデルでそれらを統一する方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep neural networks have achieved high performance across various tasks. Recently, researchers have noted occurrences of low-dimensional structure in the weights, Hessian's, gradients, and feature vectors of these networks, spanning different datasets and architectures when trained to convergence. In this analysis, we theoretically demonstrate these observations arising, and show how they can be unified within a generalized unconstrained feature model that can be considered analytically. Specifically, we consider a previously described structure called Neural Collapse, and its multi-layer counterpart, Deep Neural Collapse, which emerges when the network approaches global optima. This phenomenon explains the other observed low-dimensional behaviours on a layer-wise level, such as the bulk and outlier structure seen in Hessian spectra, and the alignment of gradient descent with the outlier eigenspace of the Hessian. Empirical results in both the deep linear unconstrained feature model and its non-linear equivalent support these predicted observations.
- Abstract(参考訳): 現代のディープニューラルネットワークは、様々なタスクで高いパフォーマンスを実現している。
近年、研究者らは、重み、ヘッセン、勾配、特徴ベクトルにおける低次元構造が、収束の訓練の際に異なるデータセットやアーキテクチャにまたがって発生することを報告している。
本研究では,これらの観測を理論的に実証し,解析的に考慮できる一般化された非制約特徴モデル内でどのように統合できるかを示す。
具体的には,ニューラルネットワークがグローバルオプティマに近づくと,その多層構造であるDeep Neural Collapseについて検討する。
この現象は、ヘッセンスペクトルに見られるバルク構造や外層構造、およびヘッセンスペクトルの外層固有空間との勾配降下のアライメントなど、層レベルで観察された他の低次元の挙動を説明する。
深部線形非拘束特徴モデルと非線形同値モデルの両方がこれらの予測された観測を支持した経験的結果である。
関連論文リスト
- The Persistence of Neural Collapse Despite Low-Rank Bias: An Analytic Perspective Through Unconstrained Features [0.0]
ディープニューラルネットワークは最終層の特徴と重みにおいて単純な構造を示し、一般に神経崩壊と呼ばれる。
最近の知見は、そのような構造は、深い制約のない特徴モデルでは一般的に最適ではないことを示している。
これは正則化によって引き起こされる低ランクバイアスによるもので、これは一般的に深い神経崩壊に関連するものよりも低いランクの解を好む。
論文 参考訳(メタデータ) (2024-10-30T16:20:39Z) - Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - From Complexity to Clarity: Analytical Expressions of Deep Neural Network Weights via Clifford's Geometric Algebra and Convexity [54.01594785269913]
我々は,標準正規化損失のトレーニングにおいて,深部ReLUニューラルネットワークの最適重みがトレーニングサンプルのウェッジ積によって与えられることを示した。
トレーニング問題は、トレーニングデータセットの幾何学的構造をエンコードするウェッジ製品機能よりも凸最適化に還元される。
論文 参考訳(メタデータ) (2023-09-28T15:19:30Z) - Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained
Features Model [21.79259092920587]
深い制約のない特徴モデルにおいて、二分分類のための一意な大域的最適化は、ディープ・ニューラル・崩壊(DNC)に典型的なすべての特性を示すことを示す。
また, (i) 深部非拘束特徴モデルを勾配降下法により最適化することにより, 得られた解は我々の理論とよく一致し, (ii) 訓練されたネットワークはDNCに適した非拘束特徴を回復することを示した。
論文 参考訳(メタデータ) (2023-05-22T15:51:28Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。