Fugu-MT 論文翻訳(概要): Three ways that non-differentiability affects neural network training

論文の概要: Three ways that non-differentiability affects neural network training

arxiv url: http://arxiv.org/abs/2401.08426v1
Date: Tue, 16 Jan 2024 15:11:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 09:26:05.772885
Title: Three ways that non-differentiability affects neural network training
Title（参考訳）: 非分化性がニューラルネットワークトレーニングに影響を及ぼす3つの方法
Authors: Siddharth Krishna Kumar
Abstract要約: 本稿では,ニューラルネットワークの学習過程において,非微分可能性が3つの異なる側面に与える影響について検討する。まず、ReLUアクティベーションを用いて完全に接続されたニューラルネットワークを分析し、連続的に微分可能なニューラルネットワークが非微分可能なニューラルネットワークよりも高速に収束することを示す。次に、$L_1$正規化の問題を分析し、ディープラーニングソルバが生み出す解は誤りであり、直感に反するものであることを示す。
参考スコア（独自算出の注目度）: 5.439020425819001
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates how non-differentiability affects three different aspects of the neural network training process. We first analyze fully connected neural networks with ReLU activations, for which we show that the continuously differentiable neural networks converge faster than non-differentiable neural networks. Next, we analyze the problem of $L_{1}$ regularization and show that the solutions produced by deep learning solvers are incorrect and counter-intuitive even for the $L_{1}$ penalized linear model. Finally, we analyze the Edge of Stability problem, where we show that all convex, non-smooth, Lipschitz continuous functions display unstable convergence, and provide an example of a result derived using twice differentiable functions which fails in the once differentiable setting. More generally, our results suggest that accounting for the non-linearity of neural networks in the training process is essential for us to develop better algorithms, and to get a better understanding of the training process in general.
Abstract（参考訳）: 本稿では,ニューラルネットワークの学習過程の3つの異なる側面に非微分性がどのように影響するかについて検討する。まず,完全連結型ニューラルネットワークをreluアクティベーションで解析し,連続微分可能なニューラルネットワークが非微分型ニューラルネットワークよりも高速に収束することを示す。次に、$L_{1}$正規化の問題を分析し、深層学習解法が生み出す解が、$L_{1}$ペナル化線形モデルであっても誤りで直観的でないことを示す。最後に、すべての凸、非滑らか、リプシッツ連続函数が不安定収束を示すことを示す安定性のエッジを解析し、一度微分可能条件で失敗する2つの微分可能関数を用いて導出した結果の例を示す。より一般的には、トレーニングプロセスにおけるニューラルネットワークの非線形性を考慮することは、より良いアルゴリズムを開発し、トレーニングプロセス全般をよりよく理解するためには不可欠であることが示唆される。

関連論文リスト

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
On the Convergence Analysis of Over-Parameterized Variational Autoencoders: A Neural Tangent Kernel Perspective [7.580900499231056]
変分自動エンコーダ(VAE)は、生成タスクの強力な確率モデルとして登場した。本稿では, 軽微な仮定の下でのVAEの数学的証明について述べる。また、過剰に最適化されたSNNが直面する最適化問題と、カーネルリッジ(KRR)問題との新たな接続を確立する。
論文参考訳（メタデータ） (2024-09-09T06:10:31Z)
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。 IGDは線形収束速度で大域的に最適解を収束することを示す。
論文参考訳（メタデータ） (2024-07-03T06:10:41Z)
Physics-Informed Neural Networks: Minimizing Residual Loss with Wide Networks and Effective Activations [5.731640425517324]
特定の条件下では、広いニューラルネットワークによってPINNの残留損失を世界規模で最小化できることを示す。良好な高次導関数を持つ活性化関数は、残留損失を最小限に抑える上で重要な役割を果たす。確立された理論は、PINNの効果的な活性化関数の設計と選択の道を開く。
論文参考訳（メタデータ） (2024-05-02T19:08:59Z)
Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。よりスムーズな関数との補間により、より一般化できることを示す。
論文参考訳（メタデータ） (2023-05-30T19:37:44Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
Approximation Power of Deep Neural Networks: an explanatory mathematical survey [0.0]
本調査の目的は、ディープニューラルネットワークの近似特性の説明的レビューを行うことである。我々は、ニューラルネットワークが他の古典的線形および非線形近似法より優れている理由と理由を理解することを目的としている。
論文参考訳（メタデータ） (2022-07-19T18:47:44Z)
Momentum Diminishes the Effect of Spectral Bias in Physics-Informed Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文参考訳（メタデータ） (2022-06-29T19:03:10Z)
Fractal Structure and Generalization Properties of Stochastic Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文参考訳（メタデータ） (2021-06-09T08:05:36Z)
NTopo: Mesh-free Topology Optimization using Implicit Neural Representations [35.07884509198916]
トポロジ最適化問題に対処する新しい機械学習手法を提案する。我々は多層パーセプトロン(MLP)を用いて密度場と変位場の両方をパラメータ化する。実験を通じて示すように、私たちのアプローチの大きな利点は、継続的ソリューション空間の自己教師付き学習を可能にすることです。
論文参考訳（メタデータ） (2021-02-22T05:25:22Z)
Analytical aspects of non-differentiable neural networks [0.0]
本稿では、量子化されたニューラルネットワークの表現性と、微分不可能なネットワークに対する近似手法について論じる。ここでは,QNN が DNN と同じ表現性を持つことを示す。また,Heaviside型アクティベーション関数を用いて定義されたネットワークについても検討し,スムーズなネットワークによるポイントワイズ近似の結果を証明した。
論文参考訳（メタデータ） (2020-11-03T17:20:43Z)
A Dynamical View on Optimization Algorithms of Overparameterized Neural Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。その結果、ニューラルネットワークの収束挙動を利用することができる。このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文参考訳（メタデータ） (2020-10-25T17:10:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。