論文の概要: Mathematical analysis of the gradients in deep learning
- arxiv url: http://arxiv.org/abs/2501.15646v1
- Date: Sun, 26 Jan 2025 19:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:53:53.274871
- Title: Mathematical analysis of the gradients in deep learning
- Title(参考訳): 深層学習における勾配の数学的解析
- Authors: Steffen Dereich, Thang Do, Arnulf Jentzen, Frederic Weber,
- Abstract要約: 勾配関数は、コスト汎函数が連続的に微分可能なすべての開集合上のコスト汎函数の標準勾配と一致しなければならないことを示す。
一般化された勾配函数は、コスト汎函数が連続的に微分可能なすべての開集合上のコスト汎函数の標準勾配と一致しなければならない。
- 参考スコア(独自算出の注目度): 3.3123773366516645
- License:
- Abstract: Deep learning algorithms -- typically consisting of a class of deep artificial neural networks (ANNs) trained by a stochastic gradient descent (SGD) optimization method -- are nowadays an integral part in many areas of science, industry, and also our day to day life. Roughly speaking, in their most basic form, ANNs can be regarded as functions that consist of a series of compositions of affine-linear functions with multidimensional versions of so-called activation functions. One of the most popular of such activation functions is the rectified linear unit (ReLU) function $\mathbb{R} \ni x \mapsto \max\{ x, 0 \} \in \mathbb{R}$. The ReLU function is, however, not differentiable and, typically, this lack of regularity transfers to the cost function of the supervised learning problem under consideration. Regardless of this lack of differentiability issue, deep learning practioners apply SGD methods based on suitably generalized gradients in standard deep learning libraries like {\sc TensorFlow} or {\sc Pytorch}. In this work we reveal an accurate and concise mathematical description of such generalized gradients in the training of deep fully-connected feedforward ANNs and we also study the resulting generalized gradient function analytically. Specifically, we provide an appropriate approximation procedure that uniquely describes the generalized gradient function, we prove that the generalized gradients are limiting Fr\'echet subgradients of the cost functional, and we conclude that the generalized gradients must coincide with the standard gradient of the cost functional on every open sets on which the cost functional is continuously differentiable.
- Abstract(参考訳): ディープラーニングアルゴリズム(一般的には、確率勾配降下法(SGD)最適化法によって訓練された、深層ニューラルネットワーク(ANN)のクラスで構成される)は、近年、科学、産業、そして私たちの日々の生活の多くの領域において、不可欠な部分となっている。
概して、その最も基本的な形式において、ANNは、いわゆるアクティベーション関数の多次元バージョンを持つアフィン線型関数の一連の合成からなる関数と見なすことができる。
そのような活性化関数の最も一般的なものは、正則線型単位(ReLU)函数 $\mathbb{R} \ni x \mapsto \max\{ x, 0 \} \in \mathbb{R}$ である。
しかし、ReLU関数は微分不可能であり、典型的には、この正規性の欠如は、教師付き学習問題のコスト関数に反映される。
このような微分可能性の問題の欠如にかかわらず、ディープラーニングの実践者は、標準的なディープラーニングライブラリである {\sc TensorFlow} や {\sc Pytorch} において、適切に一般化された勾配に基づいてSGDメソッドを適用する。
本研究では、完全連結フィードフォワードANNのトレーニングにおける一般化勾配の正確な数学的記述を明らかにし、その結果の一般化勾配関数を解析的に研究する。
具体的には、一般化勾配関数を一意に記述する適切な近似手順を提供し、一般化勾配がコスト汎関数のFr'echet次数を制限することを証明し、一般化勾配はコスト汎関数が連続的に微分可能なすべてのオープン集合上のコスト汎関数の標準勾配と一致しなければならないと結論付ける。
関連論文リスト
- Extended convexity and smoothness and their applications in deep learning [5.281849820329249]
本稿では,複合最適化問題のクラス,特にディープラーニングにおける理論的基礎を提供するための最適化フレームワークを提案する。
我々は、$mathcalH(Phi)$-smoothness である対象関数に対するリプシッツの降下法と降下法の滑らかさを解析する。
論文 参考訳(メタデータ) (2024-10-08T08:40:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Decentralized Riemannian Conjugate Gradient Method on the Stiefel
Manifold [59.73080197971106]
本稿では,最急降下法よりも高速に収束する一階共役最適化法を提案する。
これはスティーフェル多様体上の大域収束を達成することを目的としている。
論文 参考訳(メタデータ) (2023-08-21T08:02:16Z) - Continuous Function Structured in Multilayer Perceptron for Global
Optimization [0.0]
線形ニューロンを持つ多層パーセプトロンの勾配情報は、大域的最小探索問題をベンチマークするために、関数微分を用いて修正される。
関数微分を用いて与えられた連続関数から導かれる勾配の風景は、ax+bニューロンの形で表現できることを示す。
論文 参考訳(メタデータ) (2023-03-07T14:50:50Z) - Behind the Scenes of Gradient Descent: A Trajectory Analysis via Basis
Function Decomposition [4.01776052820812]
本研究は,新しい基底関数分解法を用いて勾配型アルゴリズムの解軌跡を解析する。
勾配に基づくアルゴリズムの解軌跡は学習課題によって異なるが、適切な正規関数ベースに投影された場合、ほとんど単調に振る舞う。
論文 参考訳(メタデータ) (2022-10-01T19:15:40Z) - Learning Globally Smooth Functions on Manifolds [94.22412028413102]
スムーズな関数の学習は、線形モデルやカーネルモデルなどの単純なケースを除いて、一般的に難しい。
本研究は,半無限制約学習と多様体正規化の技法を組み合わせることで,これらの障害を克服することを提案する。
軽度条件下では、この手法は解のリプシッツ定数を推定し、副生成物として大域的に滑らかな解を学ぶ。
論文 参考訳(メタデータ) (2022-10-01T15:45:35Z) - Riemannian Stochastic Gradient Method for Nested Composition Optimization [0.0]
この研究は、各函数が期待を含むリーマン多様体上のネスト形式の函数の構成の最適化を考える。
このような問題は、強化学習における政策評価やメタラーニングにおけるモデルカスタマイズといった応用において人気が高まっている。
論文 参考訳(メタデータ) (2022-07-19T15:58:27Z) - A proof of convergence for gradient descent in the training of
artificial neural networks for constant target functions [3.4792548480344254]
勾配降下法のリスク関数は, 実際に0に収束することを示す。
この作業の重要な貢献は、ANNパラメータの勾配フローシステムのLyapunov関数を明示的に指定することです。
論文 参考訳(メタデータ) (2021-02-19T13:33:03Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。