論文の概要: GD doesn't make the cut: Three ways that non-differentiability affects neural network training
- arxiv url: http://arxiv.org/abs/2401.08426v3
- Date: Thu, 9 May 2024 00:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 17:59:24.207723
- Title: GD doesn't make the cut: Three ways that non-differentiability affects neural network training
- Title(参考訳): GDはカットしない:非微分可能性がニューラルネットワークトレーニングに影響を及ぼす3つの方法
- Authors: Siddharth Krishna Kumar,
- Abstract要約: 応用非微分可能関数(NGDM)と古典勾配降下関数(GD)の区別について検討する。
正規化の増加は、NGDMにおける最適解の$L_1$ノルムの増加につながることを示す。
また、ネットワークプルーニングに広く採用されている$L_1$ization-based techniqueは、期待された結果を得られないことを示す。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the distinctions between gradient methods applied to non-differentiable functions (NGDMs) and classical gradient descents (GDs) designed for differentiable functions. First, we demonstrate significant differences in the convergence properties of NGDMs compared to GDs, challenging the applicability of the extensive neural network convergence literature based on $L-smoothness$ to non-smooth neural networks. Next, we demonstrate the paradoxical nature of NGDM solutions for $L_{1}$-regularized problems, showing that increasing the regularization penalty leads to an increase in the $L_{1}$ norm of optimal solutions in NGDMs. Consequently, we show that widely adopted $L_{1}$ penalization-based techniques for network pruning do not yield expected results. Additionally, we dispel the common belief that optimization algorithms like Adam and RMSProp perform similarly in non-differentiable contexts. Finally, we explore the Edge of Stability phenomenon, indicating its inapplicability even to Lipschitz continuous convex differentiable functions, leaving its relevance to non-convex non-differentiable neural networks inconclusive. Our analysis exposes misguided interpretations of NGDMs in widely referenced papers and texts due to an overreliance on strong smoothness assumptions, emphasizing the necessity for a nuanced understanding of foundational assumptions in the analysis of these systems.
- Abstract(参考訳): 本稿では,非微分可能関数(NGDM)に適用される勾配法と,微分可能関数用に設計された古典的勾配勾配(GD)との区別について検討する。
まず、NGDMの収束特性をGDと比較し、L-smoothness$に基づく広範ニューラルネットワーク収束文献の適用性に挑戦する。
次に,正規化ペナルティの増加は,NGDMにおける最適解の標準である$L_{1}$の増加につながることを示す。
その結果,ネットワークプルーニングにおいて,L_{1}$のペナライズに基づく手法が広く採用されていることは期待できないことがわかった。
さらに、Adam や RMSProp のような最適化アルゴリズムは、微分不可能な文脈でも同様に機能する、という一般的な信念を排除します。
最後に、リプシッツ連続凸微分関数にも適用不可能であることを示し、非凸微分可能ニューラルネットワークとの関連性について検討する。
本分析では, 強い滑らか性仮定への過度な依存から, 広く引用されている論文やテキストにおいて, NGDMの誤った解釈を提示し, 基礎的仮定の微妙な理解の必要性を強調した。
関連論文リスト
- Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Generalization Guarantees of Gradient Descent for Multi-Layer Neural
Networks [55.86300309474023]
多層NNに対する勾配降下(GD)の総合的安定性と一般化解析を行う。
2層NNと3層NNの両方において、GDアルゴリズムに対するO(1/sqrtn)$の過剰リスク率を導出する。
論文 参考訳(メタデータ) (2023-05-26T12:51:38Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Negative Flux Aggregation to Estimate Feature Attributions [15.411534490483495]
セキュリティや透明性の懸念が高まる中で、ディープニューラルネットワーク(DNN)の動作を理解する必要性が高まっている。
DNNの説明可能性を高めるために,分岐とフラックスを用いた予測課題に対する入力特徴の属性を推定する。
ベクトル解析における発散定理に着想を得て,新しい負フラックス凝集法(NeFLAG)の定式化と,帰属写像を推定するための効率的な近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-17T16:19:41Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Generalization Error Bounds for Deep Neural Networks Trained by SGD [3.148524502470734]
勾配降下(SGD)により訓練された深度に対する一般化誤差境界を導出する。
境界は、トレーニング軌跡に沿った損失に明示的に依存する。
その結果、ニューラルネットワークとネットワークハイパースの変化により、境界は非空洞で堅牢であることが判明した。
論文 参考訳(メタデータ) (2022-06-07T13:46:10Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Learning Stochastic Graph Neural Networks with Constrained Variance [18.32587282139282]
グラフニューラルネットワーク(Graph Neural Network, SGNN)は、ランダムグラフ上のデータから表現を学習する情報処理アーキテクチャである。
本稿では,SGNNに対する分散制約付き最適化問題を提案し,予測性能と偏差のバランスをとる。
降下したSGNNパラメータと昇降した双対変数を更新することで問題を解く。
論文 参考訳(メタデータ) (2022-01-29T15:55:58Z) - Multivariate Deep Evidential Regression [77.34726150561087]
不確実性を認識するニューラルネットワークによる新しいアプローチは、従来の決定論的手法よりも有望である。
本稿では,レグレッションベースニューラルネットワークからアレータ性およびてんかん性不確かさを抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:20:18Z) - Analytical aspects of non-differentiable neural networks [0.0]
本稿では、量子化されたニューラルネットワークの表現性と、微分不可能なネットワークに対する近似手法について論じる。
ここでは,QNN が DNN と同じ表現性を持つことを示す。
また,Heaviside型アクティベーション関数を用いて定義されたネットワークについても検討し,スムーズなネットワークによるポイントワイズ近似の結果を証明した。
論文 参考訳(メタデータ) (2020-11-03T17:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。