論文の概要: On non-approximability of zero loss global ${\mathcal L}^2$ minimizers by gradient descent in Deep Learning
- arxiv url: http://arxiv.org/abs/2311.07065v2
- Date: Tue, 21 Jan 2025 05:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:26.998779
- Title: On non-approximability of zero loss global ${\mathcal L}^2$ minimizers by gradient descent in Deep Learning
- Title(参考訳): ディープラーニングにおける勾配降下によるゼロ損失大域${\mathcal L}^2$最小化器の非近似性について
- Authors: Thomas Chen, Patricia Muñoz Ewald,
- Abstract要約: ディープラーニング(DL)における勾配降下アルゴリズムの幾何学的側面の解析
トレーニング入力の分布は、損失最小化のため、必ずしも非ジェネリックでなければならないと結論付けている。
- 参考スコア(独自算出の注目度): 1.189367612437469
- License:
- Abstract: We analyze geometric aspects of the gradient descent algorithm in Deep Learning (DL), and give a detailed discussion of the circumstance that in underparametrized DL networks, zero loss minimization can generically not be attained. As a consequence, we conclude that the distribution of training inputs must necessarily be non-generic in order to produce zero loss minimizers, both for the method constructed in [Chen-Munoz Ewald 2023, 2024], or for gradient descent [Chen 2025] (which assume clustering of training data).
- Abstract(参考訳): 我々は,Deep Learning(DL)における勾配降下アルゴリズムの幾何学的側面を解析し,パラメータの低いDLネットワークにおいて,ゼロ損失最小化が一般に達成できない状況について詳細に考察する。
その結果、[Chen-Munoz Ewald 2023, 2024] で構築された手法と[Chen-Munoz Ewald 2025] (トレーニングデータのクラスタリングを前提とした) で構築された手法の両方において、トレーニング入力の分布はゼロ損失最小化のために必ずしも非ジェネリックでなければならないと結論付けた。
関連論文リスト
- Zero loss guarantees and explicit minimizers for generic overparametrized Deep Learning networks [1.189367612437469]
勾配降下を起こすことなくゼロ損失最小化器を明示的に構築する。
以上の結果から,低パラメタライズドDLと過パラメタライズドDLにおけるゼロ損失到達率の2分断に関する重要な側面が明らかとなった。
論文 参考訳(メタデータ) (2025-02-19T21:31:05Z) - Training a Two Layer ReLU Network Analytically [4.94950858749529]
我々は、ReLUのような活性化と正方形損失を伴う2層ニューラルネットワークのトレーニングアルゴリズムについて検討する。
この方法は勾配降下法よりも高速で、チューニングパラメータがほとんどない。
論文 参考訳(メタデータ) (2023-04-06T09:57:52Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias [34.81794649454105]
実生活ニューラルネットワークは、小さなランダムな値から成り、分類のためのクロスエントロピー損失を訓練する。
最近の結果は、勾配降下がゼロ損失を持つ「マックス・マルジン」解に収束していることを示し、これはおそらくよく一般化される。
現在の論文では、線形分離可能・対称データ上で勾配流を学習した2層ReLUネットに対して、この大域的最適性を確立することができる。
論文 参考訳(メタデータ) (2021-10-26T17:57:57Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - When does gradient descent with logistic loss find interpolating
two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。
データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文 参考訳(メタデータ) (2020-12-04T05:16:51Z) - Deep learning algorithms for solving high dimensional nonlinear backward
stochastic differential equations [1.8655840060559168]
我々は高次元非線形後方微分方程式(BSDEs)を解くためのディープラーニングに基づく新しいスキームを提案する。
我々は、ディープニューラルネットワークを用いたBSDEの未知解と、その勾配を自動微分で近似する。
提案アルゴリズムの性能を示すために,ファイナンスにおける価格問題を含む非線形BSDEについて述べる。
論文 参考訳(メタデータ) (2020-10-03T10:18:58Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。