論文の概要: Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer
- arxiv url: http://arxiv.org/abs/2201.02761v1
- Date: Sat, 8 Jan 2022 04:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 14:39:57.570517
- Title: Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer
- Title(参考訳): 一神経層を有する深部線形ネットワークのグローバル収束解析
- Authors: Kun Chen, Dachao Lin, Zhihua Zhang
- Abstract要約: 2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
- 参考スコア(独自算出の注目度): 18.06634056613645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we follow Eftekhari's work to give a non-local convergence
analysis of deep linear networks. Specifically, we consider optimizing deep
linear networks which have a layer with one neuron under quadratic loss. We
describe the convergent point of trajectories with arbitrary starting point
under gradient flow, including the paths which converge to one of the saddle
points or the original point. We also show specific convergence rates of
trajectories that converge to the global minimizer by stages. To achieve these
results, this paper mainly extends the machinery in Eftekhari's work to
provably identify the rank-stable set and the global minimizer convergent set.
We also give specific examples to show the necessity of our definitions.
Crucially, as far as we know, our results appear to be the first to give a
non-local global analysis of linear neural networks from arbitrary initialized
points, rather than the lazy training regime which has dominated the literature
of neural networks, and restricted benign initialization in Eftekhari's work.
We also note that extending our results to general linear networks without one
hidden neuron assumption remains a challenging open problem.
- Abstract(参考訳): 本稿では、深層線形ネットワークの非局所収束解析を行うために、Eftekhariの研究に従う。
具体的には,2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
勾配流下において任意の出発点を持つ軌道の収束点を記述し、サドル点の1つあるいは元の点に収束する経路を含む。
また、段階的に大域的最小値に収束する軌道の特定の収束率を示す。
これらの結果を得るために,本論文は主にエフテハリの研究の機械を拡張し,ランク安定集合と大域最小化収束集合を証明的に同定する。
また、定義の必要性を示す具体的な例を示す。
重要なことに、我々の研究結果は、ニューラルネットワークの文献を支配し、エフテハリの研究において良心的な初期化を制限した遅延トレーニング体制よりも、任意の初期化点から線形ニューラルネットワークを非局所的にグローバルに解析した初めてのものと思われる。
また、隠れたニューロンの仮定を1つも含まない一般線形ネットワークに結果を拡張することは、依然として困難な問題である。
関連論文リスト
- Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias
for Correlated Inputs [5.7166378791349315]
我々は、単一ニューロンを学習する基本的な回帰タスクとして、1つの隠れた層ReLUネットワークをトレーニングすると、損失がゼロとなることを証明した。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
論文 参考訳(メタデータ) (2023-06-10T16:36:22Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The loss landscape of deep linear neural networks: a second-order analysis [9.85879905918703]
正方形損失を伴う深部線形ニューラルネットワークの最適化環境について検討する。
我々は、すべての臨界点の中で、大域最小化点、厳格なサドル点、非制限サドル点を特徴づける。
論文 参考訳(メタデータ) (2021-07-28T11:33:18Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Directional Convergence Analysis under Spherically Symmetric
Distribution [21.145823611499104]
勾配流や勾配降下を伴うニューラルネットワークを用いた線形予測子(すなわち、ゼロマージンの分離可能なデータセット)の学習に関する基礎的な問題を考える。
2つの隠れノードしか持たない2層非線形ネットワークと(ディープ)線形ネットワークに対して、方向収束保証と正確な収束率を示す。
論文 参考訳(メタデータ) (2021-05-09T08:59:58Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。