論文の概要: Sobolev acceleration for neural networks
- arxiv url: http://arxiv.org/abs/2509.19773v1
- Date: Wed, 24 Sep 2025 05:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.69689
- Title: Sobolev acceleration for neural networks
- Title(参考訳): ニューラルネットワークのためのソボレフ加速
- Authors: Jong Kwon Oh, Hanbaek Lyu, Hwijae Son,
- Abstract要約: ソボレフトレーニングは、従来の$L2$トレーニングと比較して収束を加速し、一般化を改善することが示されている。
本稿では,ソボレフトレーニングがReLU(Rectified Linear Unit)ネットワークの収束を加速することを示す,厳密な理論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.655311590103238
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sobolev training, which integrates target derivatives into the loss functions, has been shown to accelerate convergence and improve generalization compared to conventional $L^2$ training. However, the underlying mechanisms of this training method remain only partially understood. In this work, we present the first rigorous theoretical framework proving that Sobolev training accelerates the convergence of Rectified Linear Unit (ReLU) networks. Under a student-teacher framework with Gaussian inputs and shallow architectures, we derive exact formulas for population gradients and Hessians, and quantify the improvements in conditioning of the loss landscape and gradient-flow convergence rates. Extensive numerical experiments validate our theoretical findings and show that the benefits of Sobolev training extend to modern deep learning tasks.
- Abstract(参考訳): 目標微分を損失関数に統合したソボレフトレーニングは、従来の$L^2$トレーニングと比較して収束を加速し、一般化を改善することが示されている。
しかし、この訓練法の根底にあるメカニズムはいまだ部分的にしか理解されていない。
本稿では,ソボレフトレーニングがRectified Linear Unit (ReLU) ネットワークの収束を加速することを示す,厳密な理論フレームワークを提案する。
ガウス的な入力と浅いアーキテクチャを持つ学生-教師の枠組みの下で、人口勾配とヘッセンの正確な公式を導出し、損失景観の条件付けと勾配-流収束率の改善を定量化する。
大規模な数値実験により、ソボレフ訓練の利点が現代の深層学習課題にまで及んでいることを示す。
関連論文リスト
- Description of the Training Process of Neural Networks via Ergodic Theorem : Ghost nodes [3.637162892228131]
本稿では、訓練勾配降下(SGD)による深層ニューラルネットワークの理解と加速のための統一的な枠組みを提案する。
我々は,安定剤に対する真の収束を識別する,最も大きなリャプノフ指数の実用診断,実行推定を導入する。
本稿では,補助的なゴースト出力ノードを付加した標準分類器のゴーストカテゴリ拡張を提案する。
論文 参考訳(メタデータ) (2025-07-01T17:54:35Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Provable Accelerated Convergence of Nesterov's Momentum for Deep ReLU
Neural Networks [12.763567932588591]
ニューラルネットワークのトレーニングにおける勾配勾配勾配の収束に関する現状分析は、損失景観の特性を特徴づけることに重点を置いている。
我々は、パラメータのサブセットだけが強い凸性を満たす新しい目的関数のクラスを考え、理論においてネステロフの運動量加速度を示す。
我々は、問題クラスの2つの実現法を提供し、そのうちの1つはディープ ReLU ネットワークであり、これは、私たちの知識を最大限に活用するために、非自明なニューラルネットワークアーキテクチャに対する加速収束率を証明する最初の方法である。
論文 参考訳(メタデータ) (2023-06-13T19:55:46Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。