Fugu-MT 論文翻訳(概要): On non-approximability of zero loss global ${\mathcal L}^2$ minimizers by gradient descent in Deep Learning

論文の概要: On non-approximability of zero loss global ${\mathcal L}^2$ minimizers by gradient descent in Deep Learning

arxiv url: http://arxiv.org/abs/2311.07065v2
Date: Tue, 21 Jan 2025 05:48:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:18.704041
Title: On non-approximability of zero loss global ${\mathcal L}^2$ minimizers by gradient descent in Deep Learning
Title（参考訳）: ディープラーニングにおける勾配降下によるゼロ損失大域${\mathcal L}^2$最小化器の非近似性について
Authors: Thomas Chen, Patricia Muñoz Ewald,
Abstract要約: ディープラーニング(DL)における勾配降下アルゴリズムの幾何学的側面の解析トレーニング入力の分布は、損失最小化のため、必ずしも非ジェネリックでなければならないと結論付けている。
参考スコア（独自算出の注目度）: 1.189367612437469
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We analyze geometric aspects of the gradient descent algorithm in Deep Learning (DL), and give a detailed discussion of the circumstance that in underparametrized DL networks, zero loss minimization can generically not be attained. As a consequence, we conclude that the distribution of training inputs must necessarily be non-generic in order to produce zero loss minimizers, both for the method constructed in [Chen-Munoz Ewald 2023, 2024], or for gradient descent [Chen 2025] (which assume clustering of training data).
Abstract（参考訳）: 我々は,Deep Learning(DL)における勾配降下アルゴリズムの幾何学的側面を解析し,パラメータの低いDLネットワークにおいて,ゼロ損失最小化が一般に達成できない状況について詳細に考察する。その結果、[Chen-Munoz Ewald 2023, 2024] で構築された手法と[Chen-Munoz Ewald 2025] (トレーニングデータのクラスタリングを前提とした) で構築された手法の両方において、トレーニング入力の分布はゼロ損失最小化のために必ずしも非ジェネリックでなければならないと結論付けた。

関連論文リスト

Zero loss guarantees and explicit minimizers for generic overparametrized Deep Learning networks [1.189367612437469]
勾配降下を起こすことなくゼロ損失最小化器を明示的に構築する。以上の結果から,低パラメタライズドDLと過パラメタライズドDLにおけるゼロ損失到達率の2分断に関する重要な側面が明らかとなった。
論文参考訳（メタデータ） (2025-02-19T21:31:05Z)
Regularized Gradient Clipping Provably Trains Wide and Deep Neural Networks [9.323581269218504]
本稿では,2乗損失下での深部ニューラルネットワークの損失面の大域的最小値に収束することが証明された,勾配クリッピングアルゴリズムの新たな正規化形式を提案する。また、理論的に確立した$delta-$GClipアルゴリズムが最先端のディープラーニングと競合するという実証的な証拠も提示する。
論文参考訳（メタデータ） (2024-04-12T17:37:42Z)
How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文参考訳（メタデータ） (2023-12-07T21:40:44Z)
Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文参考訳（メタデータ） (2023-09-09T18:47:55Z)
Training a Two Layer ReLU Network Analytically [4.94950858749529]
我々は、ReLUのような活性化と正方形損失を伴う2層ニューラルネットワークのトレーニングアルゴリズムについて検討する。この方法は勾配降下法よりも高速で、チューニングパラメータがほとんどない。
論文参考訳（メタデータ） (2023-04-06T09:57:52Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。本稿では,完全勾配の必要性を除去する。集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文参考訳（メタデータ） (2021-11-26T06:00:44Z)
Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。 3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文参考訳（メタデータ） (2021-08-04T13:10:30Z)
Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文参考訳（メタデータ） (2021-07-14T10:59:57Z)
When does gradient descent with logistic loss find interpolating two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文参考訳（メタデータ） (2020-12-04T05:16:51Z)
Deep orthogonal linear networks are shallow [9.434391240650266]
勾配勾配降下による重みのトレーニングは、勾配勾配降下による全因子化のトレーニングと等価であることを示す。これは、この設定では過度なパラメータ化と暗黙のバイアスがまったく影響しないことを意味する。
論文参考訳（メタデータ） (2020-11-27T16:57:19Z)
Deep learning algorithms for solving high dimensional nonlinear backward stochastic differential equations [1.8655840060559168]
我々は高次元非線形後方微分方程式(BSDEs)を解くためのディープラーニングに基づく新しいスキームを提案する。我々は、ディープニューラルネットワークを用いたBSDEの未知解と、その勾配を自動微分で近似する。提案アルゴリズムの性能を示すために,ファイナンスにおける価格問題を含む非線形BSDEについて述べる。
論文参考訳（メタデータ） (2020-10-03T10:18:58Z)
Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文参考訳（メタデータ） (2020-10-01T16:48:33Z)
Implicit Bias in Deep Linear Classification: Initialization Scale vs Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文参考訳（メタデータ） (2020-07-13T23:49:53Z)
Unbiased Risk Estimators Can Mislead: A Case Study of Learning with Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。勾配推定の品質はリスク最小化においてより重要であることを示す。本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-05T04:19:37Z)
The Impact of the Mini-batch Size on the Variance of Gradients in Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文参考訳（メタデータ） (2020-04-27T20:06:11Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。