Fugu-MT 論文翻訳(概要): Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning

論文の概要: Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning

arxiv url: http://arxiv.org/abs/2311.15487v2
Date: Sun, 31 Dec 2023 07:44:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 00:59:46.236054
Title: Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning
Title（参考訳）: 深層学習における幾何適応勾配勾配による一様指数速度での大域的$\mathcal{L}^2$最小化
Authors: Thomas Chen
Abstract要約: 本稿では,Deep Learning Networkにおける$mathcalL2$コスト関数の最小化に広く用いられている勾配降下流について考察する。過度なパラメータ設定に適合するバージョンと、過度なパラメータ設定に適応するバージョンを2つ導入する。
参考スコア（独自算出の注目度）: 1.4050802766699084
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the gradient descent flow widely used for the minimization of the $\mathcal{L}^2$ cost function in Deep Learning networks, and introduce two modified versions; one adapted for the overparametrized setting, and the other for the underparametrized setting. Both have a clear and natural invariant geometric meaning, taking into account the pullback vector bundle structure in the overparametrized, and the pushforward vector bundle structure in the underparametrized setting. In the overparametrized case, we prove that, provided that a rank condition holds, all orbits of the modified gradient descent drive the $\mathcal{L}^2$ cost to its global minimum at a uniform exponential convergence rate; one thereby obtains an a priori stopping time for any prescribed proximity to the global minimum. We point out relations of the latter to sub-Riemannian geometry.
Abstract（参考訳）: 我々は,深層学習ネットワークにおける$\mathcal{l}^2$コスト関数の最小化に広く用いられている勾配降下流を考察し,過パラメータ設定に適応したバージョンと過パラメータ設定に適応したバージョンを2つ導入した。どちらも明快で自然な不変な幾何学的意味を持ち、オーバーパラメトリゼーションにおけるプルバックベクトルバンドル構造とアンダーパラメトリゼーションされた設定におけるプッシュフォワードベクトルバンドル構造を考慮に入れている。過パラメータ化の場合、ランク条件が成り立つならば、修正された勾配降下の全ての軌道は、一様指数収束率で、$\mathcal{l}^2$コストをその大域的最小値に駆動する。後者と部分リーマン幾何学の関係を指摘する。

関連論文リスト

Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文参考訳（メタデータ） (2025-06-02T17:34:29Z)
Gradient flow in parameter space is equivalent to linear interpolation in output space [1.189367612437469]
深層学習における多くの学習アルゴリズムの基盤となるパラメータ空間の標準流れは、適応的な勾配流に連続的に変形可能であることを証明した。 L2$損失の場合、パラメータに関する出力のヤコビアンがフルランクであれば、時間変数は単純に線形となるように再パラメータ化できる。クロスエントロピー損失の場合、同じランク条件の下でラベルが正の成分を持つと仮定すると、一意な大域最小値に対する明示的な公式が導出される。
論文参考訳（メタデータ） (2024-08-02T18:23:17Z)
Adversarial flows: A gradient flow characterization of adversarial attacks [1.8749305679160366]
ニューラルネットワークに対する敵攻撃を行う一般的な方法は、いわゆる高速勾配符号法である。我々は、離散化と関連する勾配流の収束性を示す。
論文参考訳（メタデータ） (2024-06-08T07:05:26Z)
Randomized Gradient Descents on Riemannian Manifolds: Almost Sure Convergence to Global Minima in and beyond Quantum Optimization [0.0]
本研究では,スムーズなコスト関数の最小化を目的とした勾配流の接空間方向のランダム化について検討する。我々は,サドル点が存在するにもかかわらず,局所最適点への収束がほぼ確実に得られることを証明した。簡単な2次元設定でサドル点を通過させるのに必要な時間について論じる。
論文参考訳（メタデータ） (2024-05-20T14:06:45Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Curvature-Independent Last-Iterate Convergence for Games on Riemannian Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文参考訳（メタデータ） (2023-06-29T01:20:44Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。 GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文参考訳（メタデータ） (2022-06-08T21:32:50Z)
Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。 3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文参考訳（メタデータ） (2021-08-04T13:10:30Z)
Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文参考訳（メタデータ） (2021-05-13T04:23:07Z)
On the Convergence of Gradient Descent in GANs: MMD GAN As a Gradient Flow [26.725412498545385]
パラメトリックカーネル化勾配流は、勾配正規化$mathrmMMD$GANにおけるmin-maxゲームに類似していることを示す。次に、正規化$mathrmMMD$GANにおける生成元の空間上の勾配降下が、対象分布に大域的に収束することを保証する明示的な条件を導出する。
論文参考訳（メタデータ） (2020-11-04T16:55:00Z)
Learning Unitaries by Gradient Descent [12.354076490479516]
我々は、交互列の時間パラメータの勾配勾配から$Ud)$でユニタリ変換を学習する。勾配$パラメータが少ない場合、勾配降下は準最適解に収束するが、$d2$パラメータ以上の場合、勾配降下は最適解に収束する。
論文参考訳（メタデータ） (2020-01-31T15:20:55Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。