論文の概要: Global $\mathcal{L}^2$ minimization with certainty via geometrically
adapted gradient descent in Deep Learning
- arxiv url: http://arxiv.org/abs/2311.15487v1
- Date: Mon, 27 Nov 2023 02:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:32:14.244415
- Title: Global $\mathcal{L}^2$ minimization with certainty via geometrically
adapted gradient descent in Deep Learning
- Title(参考訳): 深層学習における幾何適応勾配降下によるグローバル$\mathcal{l}^2$の最小化
- Authors: Thomas Chen
- Abstract要約: 本稿では,Deep Learning Networkにおける$mathcalL2$コスト関数の最小化に広く用いられている勾配降下流について考察する。
過度なパラメータ設定に適合するバージョンと、過度なパラメータ設定に適応するバージョンを2つ導入する。
- 参考スコア(独自算出の注目度): 1.4050802766699084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the gradient descent flow widely used for the minimization of the
$\mathcal{L}^2$ cost function in Deep Learning networks, and introduce two
modified versions; one adapted for the overparametrized setting, and the other
for the underparametrized setting. Both have a clear and natural invariant
geometric meaning, taking into account the pullback vector bundle structure in
the overparametrized, and the pushforward vector bundle structure in the
underparametrized setting. In the overparametrized case, we prove that,
provided that a rank condition holds, all orbits of the modified gradient
descent drive the $\mathcal{L}^2$ cost to its global minimum at a uniform
exponential convergence rate. We point out relations of the latter to
sub-Riemannian geometry.
- Abstract(参考訳): 我々は,深層学習ネットワークにおける$\mathcal{l}^2$コスト関数の最小化に広く用いられている勾配降下流を考察し,過パラメータ設定に適応したバージョンと過パラメータ設定に適応したバージョンを2つ導入した。
どちらも明快で自然な不変な幾何学的意味を持ち、オーバーパラメトリゼーションにおけるプルバックベクトルバンドル構造とアンダーパラメトリゼーションされた設定におけるプッシュフォワードベクトルバンドル構造を考慮に入れている。
過度パラメータ化の場合、ランク条件が成り立つと、修正された勾配降下のすべての軌道が、一様指数収束速度で$\mathcal{L}^2$のコストをその大域的最小に導くことが証明される。
後者と部分リーマン幾何学の関係を指摘する。
関連論文リスト
- A Mean-Field Analysis of Neural Gradient Descent-Ascent: Applications to Functional Conditional Moment Equations [90.87444114491116]
無限次元関数クラス上で定義されるミニマックス最適化問題について検討する。
また、勾配降下度アルゴリズムの収束とニューラルネットワークの表現学習についても検討する。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On the Stability of Gradient Descent for Large Learning Rate [62.19241612132701]
ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - On the Convergence of Gradient Descent in GANs: MMD GAN As a Gradient
Flow [26.725412498545385]
パラメトリックカーネル化勾配流は、勾配正規化$mathrmMMD$GANにおけるmin-maxゲームに類似していることを示す。
次に、正規化$mathrmMMD$GANにおける生成元の空間上の勾配降下が、対象分布に大域的に収束することを保証する明示的な条件を導出する。
論文 参考訳(メタデータ) (2020-11-04T16:55:00Z) - Learning Unitaries by Gradient Descent [12.354076490479516]
我々は、交互列の時間パラメータの勾配勾配から$Ud)$でユニタリ変換を学習する。
勾配$パラメータが少ない場合、勾配降下は準最適解に収束するが、$d2$パラメータ以上の場合、勾配降下は最適解に収束する。
論文 参考訳(メタデータ) (2020-01-31T15:20:55Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。