論文の概要: Three ways that non-differentiability affects neural network training
- arxiv url: http://arxiv.org/abs/2401.08426v1
- Date: Tue, 16 Jan 2024 15:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 09:26:05.772885
- Title: Three ways that non-differentiability affects neural network training
- Title(参考訳): 非分化性がニューラルネットワークトレーニングに影響を及ぼす3つの方法
- Authors: Siddharth Krishna Kumar
- Abstract要約: 本稿では,ニューラルネットワークの学習過程において,非微分可能性が3つの異なる側面に与える影響について検討する。
まず、ReLUアクティベーションを用いて完全に接続されたニューラルネットワークを分析し、連続的に微分可能なニューラルネットワークが非微分可能なニューラルネットワークよりも高速に収束することを示す。
次に、$L_1$正規化の問題を分析し、ディープラーニングソルバが生み出す解は誤りであり、直感に反するものであることを示す。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates how non-differentiability affects three different
aspects of the neural network training process. We first analyze fully
connected neural networks with ReLU activations, for which we show that the
continuously differentiable neural networks converge faster than
non-differentiable neural networks. Next, we analyze the problem of $L_{1}$
regularization and show that the solutions produced by deep learning solvers
are incorrect and counter-intuitive even for the $L_{1}$ penalized linear
model. Finally, we analyze the Edge of Stability problem, where we show that
all convex, non-smooth, Lipschitz continuous functions display unstable
convergence, and provide an example of a result derived using twice
differentiable functions which fails in the once differentiable setting. More
generally, our results suggest that accounting for the non-linearity of neural
networks in the training process is essential for us to develop better
algorithms, and to get a better understanding of the training process in
general.
- Abstract(参考訳): 本稿では,ニューラルネットワークの学習過程の3つの異なる側面に非微分性がどのように影響するかについて検討する。
まず,完全連結型ニューラルネットワークをreluアクティベーションで解析し,連続微分可能なニューラルネットワークが非微分型ニューラルネットワークよりも高速に収束することを示す。
次に、$L_{1}$正規化の問題を分析し、深層学習解法が生み出す解が、$L_{1}$ペナル化線形モデルであっても誤りで直観的でないことを示す。
最後に、すべての凸、非滑らか、リプシッツ連続函数が不安定収束を示すことを示す安定性のエッジを解析し、一度微分可能条件で失敗する2つの微分可能関数を用いて導出した結果の例を示す。
より一般的には、トレーニングプロセスにおけるニューラルネットワークの非線形性を考慮することは、より良いアルゴリズムを開発し、トレーニングプロセス全般をよりよく理解するためには不可欠であることが示唆される。
関連論文リスト
- Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Generalization Guarantees of Gradient Descent for Multi-Layer Neural
Networks [55.86300309474023]
多層NNに対する勾配降下(GD)の総合的安定性と一般化解析を行う。
2層NNと3層NNの両方において、GDアルゴリズムに対するO(1/sqrtn)$の過剰リスク率を導出する。
論文 参考訳(メタデータ) (2023-05-26T12:51:38Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Negative Flux Aggregation to Estimate Feature Attributions [15.411534490483495]
セキュリティや透明性の懸念が高まる中で、ディープニューラルネットワーク(DNN)の動作を理解する必要性が高まっている。
DNNの説明可能性を高めるために,分岐とフラックスを用いた予測課題に対する入力特徴の属性を推定する。
ベクトル解析における発散定理に着想を得て,新しい負フラックス凝集法(NeFLAG)の定式化と,帰属写像を推定するための効率的な近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-17T16:19:41Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Generalization Error Bounds for Deep Neural Networks Trained by SGD [3.148524502470734]
勾配降下(SGD)により訓練された深度に対する一般化誤差境界を導出する。
境界は、トレーニング軌跡に沿った損失に明示的に依存する。
その結果、ニューラルネットワークとネットワークハイパースの変化により、境界は非空洞で堅牢であることが判明した。
論文 参考訳(メタデータ) (2022-06-07T13:46:10Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Learning Stochastic Graph Neural Networks with Constrained Variance [18.32587282139282]
グラフニューラルネットワーク(Graph Neural Network, SGNN)は、ランダムグラフ上のデータから表現を学習する情報処理アーキテクチャである。
本稿では,SGNNに対する分散制約付き最適化問題を提案し,予測性能と偏差のバランスをとる。
降下したSGNNパラメータと昇降した双対変数を更新することで問題を解く。
論文 参考訳(メタデータ) (2022-01-29T15:55:58Z) - Multivariate Deep Evidential Regression [77.34726150561087]
不確実性を認識するニューラルネットワークによる新しいアプローチは、従来の決定論的手法よりも有望である。
本稿では,レグレッションベースニューラルネットワークからアレータ性およびてんかん性不確かさを抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:20:18Z) - Analytical aspects of non-differentiable neural networks [0.0]
本稿では、量子化されたニューラルネットワークの表現性と、微分不可能なネットワークに対する近似手法について論じる。
ここでは,QNN が DNN と同じ表現性を持つことを示す。
また,Heaviside型アクティベーション関数を用いて定義されたネットワークについても検討し,スムーズなネットワークによるポイントワイズ近似の結果を証明した。
論文 参考訳(メタデータ) (2020-11-03T17:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。