論文の概要: Non-approximability of constructive global $\mathcal{L}^2$ minimizers by
gradient descent in Deep Learning
- arxiv url: http://arxiv.org/abs/2311.07065v1
- Date: Mon, 13 Nov 2023 04:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:38:53.184811
- Title: Non-approximability of constructive global $\mathcal{L}^2$ minimizers by
gradient descent in Deep Learning
- Title(参考訳): 深層学習における勾配降下による構成的大域$\mathcal{L}^2$最小化器の非近似性
- Authors: Thomas Chen, Patricia Mu\~noz Ewald
- Abstract要約: 過度パラメータ化されたReLU DLネットワークに対して,[Chen-Munoz Ewald 2023] で構成的に得られた$mathcalL2$コストに対する世界最小化の重みとバイアスが,勾配降下流によって一般化されないことを証明した。
我々は[Chen-Munoz Ewald 2023]で導入された手法が勾配降下法と解離していると結論付けた。
- 参考スコア(独自算出の注目度): 1.4050802766699084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze geometric aspects of the gradient descent algorithm in Deep
Learning (DL) networks. In particular, we prove that the globally minimizing
weights and biases for the $\mathcal{L}^2$ cost obtained constructively in
[Chen-Munoz Ewald 2023] for underparametrized ReLU DL networks can generically
not be approximated via the gradient descent flow. We therefore conclude that
the method introduced in [Chen-Munoz Ewald 2023] is disjoint from the gradient
descent method.
- Abstract(参考訳): 深層学習(dl)ネットワークにおける勾配降下アルゴリズムの幾何学的側面を分析する。
特に,低パラメータの relu dl ネットワーク [chen-munoz ewald 2023] において構成的に得られる$\mathcal{l}^2$ の和とバイアスのグローバル最小化は,勾配降下流を介しては汎用的に近似できないことを証明した。
したがって,[Chen-Munoz Ewald 2023] で導入された手法は勾配降下法と解離する。
関連論文リスト
- Zero loss guarantees and explicit minimizers for generic overparametrized Deep Learning networks [1.189367612437469]
勾配降下を起こすことなくゼロ損失最小化器を明示的に構築する。
以上の結果から,低パラメタライズドDLと過パラメタライズドDLにおけるゼロ損失到達率の2分断に関する重要な側面が明らかとなった。
論文 参考訳(メタデータ) (2025-02-19T21:31:05Z) - Training a Two Layer ReLU Network Analytically [4.94950858749529]
我々は、ReLUのような活性化と正方形損失を伴う2層ニューラルネットワークのトレーニングアルゴリズムについて検討する。
この方法は勾配降下法よりも高速で、チューニングパラメータがほとんどない。
論文 参考訳(メタデータ) (2023-04-06T09:57:52Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias [34.81794649454105]
実生活ニューラルネットワークは、小さなランダムな値から成り、分類のためのクロスエントロピー損失を訓練する。
最近の結果は、勾配降下がゼロ損失を持つ「マックス・マルジン」解に収束していることを示し、これはおそらくよく一般化される。
現在の論文では、線形分離可能・対称データ上で勾配流を学習した2層ReLUネットに対して、この大域的最適性を確立することができる。
論文 参考訳(メタデータ) (2021-10-26T17:57:57Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - When does gradient descent with logistic loss find interpolating
two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。
データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文 参考訳(メタデータ) (2020-12-04T05:16:51Z) - Deep learning algorithms for solving high dimensional nonlinear backward
stochastic differential equations [1.8655840060559168]
我々は高次元非線形後方微分方程式(BSDEs)を解くためのディープラーニングに基づく新しいスキームを提案する。
我々は、ディープニューラルネットワークを用いたBSDEの未知解と、その勾配を自動微分で近似する。
提案アルゴリズムの性能を示すために,ファイナンスにおける価格問題を含む非線形BSDEについて述べる。
論文 参考訳(メタデータ) (2020-10-03T10:18:58Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。