論文の概要: Three ways that non-differentiability affects neural network training
- arxiv url: http://arxiv.org/abs/2401.08426v1
- Date: Tue, 16 Jan 2024 15:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 09:26:05.772885
- Title: Three ways that non-differentiability affects neural network training
- Title(参考訳): 非分化性がニューラルネットワークトレーニングに影響を及ぼす3つの方法
- Authors: Siddharth Krishna Kumar
- Abstract要約: 本稿では,ニューラルネットワークの学習過程において,非微分可能性が3つの異なる側面に与える影響について検討する。
まず、ReLUアクティベーションを用いて完全に接続されたニューラルネットワークを分析し、連続的に微分可能なニューラルネットワークが非微分可能なニューラルネットワークよりも高速に収束することを示す。
次に、$L_1$正規化の問題を分析し、ディープラーニングソルバが生み出す解は誤りであり、直感に反するものであることを示す。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates how non-differentiability affects three different
aspects of the neural network training process. We first analyze fully
connected neural networks with ReLU activations, for which we show that the
continuously differentiable neural networks converge faster than
non-differentiable neural networks. Next, we analyze the problem of $L_{1}$
regularization and show that the solutions produced by deep learning solvers
are incorrect and counter-intuitive even for the $L_{1}$ penalized linear
model. Finally, we analyze the Edge of Stability problem, where we show that
all convex, non-smooth, Lipschitz continuous functions display unstable
convergence, and provide an example of a result derived using twice
differentiable functions which fails in the once differentiable setting. More
generally, our results suggest that accounting for the non-linearity of neural
networks in the training process is essential for us to develop better
algorithms, and to get a better understanding of the training process in
general.
- Abstract(参考訳): 本稿では,ニューラルネットワークの学習過程の3つの異なる側面に非微分性がどのように影響するかについて検討する。
まず,完全連結型ニューラルネットワークをreluアクティベーションで解析し,連続微分可能なニューラルネットワークが非微分型ニューラルネットワークよりも高速に収束することを示す。
次に、$L_{1}$正規化の問題を分析し、深層学習解法が生み出す解が、$L_{1}$ペナル化線形モデルであっても誤りで直観的でないことを示す。
最後に、すべての凸、非滑らか、リプシッツ連続函数が不安定収束を示すことを示す安定性のエッジを解析し、一度微分可能条件で失敗する2つの微分可能関数を用いて導出した結果の例を示す。
より一般的には、トレーニングプロセスにおけるニューラルネットワークの非線形性を考慮することは、より良いアルゴリズムを開発し、トレーニングプロセス全般をよりよく理解するためには不可欠であることが示唆される。
関連論文リスト
- On the Convergence Analysis of Over-Parameterized Variational Autoencoders: A Neural Tangent Kernel Perspective [7.580900499231056]
変分自動エンコーダ(VAE)は、生成タスクの強力な確率モデルとして登場した。
本稿では, 軽微な仮定の下でのVAEの数学的証明について述べる。
また、過剰に最適化されたSNNが直面する最適化問題と、カーネルリッジ(KRR)問題との新たな接続を確立する。
論文 参考訳(メタデータ) (2024-09-09T06:10:31Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Physics-Informed Neural Networks: Minimizing Residual Loss with Wide Networks and Effective Activations [5.731640425517324]
特定の条件下では、広いニューラルネットワークによってPINNの残留損失を世界規模で最小化できることを示す。
良好な高次導関数を持つ活性化関数は、残留損失を最小限に抑える上で重要な役割を果たす。
確立された理論は、PINNの効果的な活性化関数の設計と選択の道を開く。
論文 参考訳(メタデータ) (2024-05-02T19:08:59Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Approximation Power of Deep Neural Networks: an explanatory mathematical
survey [0.0]
本調査の目的は、ディープニューラルネットワークの近似特性の説明的レビューを行うことである。
我々は、ニューラルネットワークが他の古典的線形および非線形近似法より優れている理由と理由を理解することを目的としている。
論文 参考訳(メタデータ) (2022-07-19T18:47:44Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Analytical aspects of non-differentiable neural networks [0.0]
本稿では、量子化されたニューラルネットワークの表現性と、微分不可能なネットワークに対する近似手法について論じる。
ここでは,QNN が DNN と同じ表現性を持つことを示す。
また,Heaviside型アクティベーション関数を用いて定義されたネットワークについても検討し,スムーズなネットワークによるポイントワイズ近似の結果を証明した。
論文 参考訳(メタデータ) (2020-11-03T17:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。