論文の概要: Provable Generalization Bounds for Deep Neural Networks with Momentum-Adaptive Gradient Dropout
- arxiv url: http://arxiv.org/abs/2510.18410v2
- Date: Mon, 03 Nov 2025 03:17:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 18:19:02.804623
- Title: Provable Generalization Bounds for Deep Neural Networks with Momentum-Adaptive Gradient Dropout
- Title(参考訳): Momentum-Adaptive Gradient Dropout を用いたディープニューラルネットワークの確率的一般化境界
- Authors: Adeel Safder,
- Abstract要約: 我々は、ディープニューラルネットワーク(DNN)のためのMomentumベースのMAGDrop Gradient(Drop)を紹介する。
ドロップは、現在の勾配に基づいて理論的な一般化を調整する。
M(99.%)と6.5AR(92.03%)の競争性能を達成する
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) achieve remarkable performance but often suffer from overfitting due to their high capacity. We introduce Momentum-Adaptive Gradient Dropout (MAGDrop), a novel regularization method that dynamically adjusts dropout rates on activations based on current gradients and accumulated momentum, enhancing stability in non-convex optimization landscapes. To theoretically justify MAGDrop's effectiveness, we derive a non-asymptotic, computable PAC-Bayes generalization bound that accounts for its adaptive nature, achieving up to 29.2\% tighter bounds compared to standard approaches by leveraging momentum-driven perturbation control. Empirically, the activation-based MAGDrop achieves competitive performance on MNIST (99.52\%) and CIFAR-10 (92.03\%), with generalization gaps of 0.48\% and 6.52\%, respectively. We provide fully reproducible code and numerical computation of our bounds to validate our theoretical claims. Our work bridges theoretical insights and practical advancements, offering a robust framework for enhancing DNN generalization, making it suitable for high-stakes applications.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、優れたパフォーマンスを達成するが、高い能力のために過度に適合する。
我々は,現在の勾配と累積運動量に基づいて,アクティベーションの低下率を動的に調整し,非凸最適化ランドスケープの安定性を向上する新しい正規化手法であるmomentum-Adaptive Gradient Dropout (MAGDrop)を紹介する。
理論上、MAGDropの有効性を正当化するために、運動量駆動の摂動制御を利用して、その適応性を考慮した非漸近的で計算可能なPAC-Bayes一般化を導出し、標準アプローチと比較して29.2\%の厳密な境界を達成する。
MNIST (99.52\%) と CIFAR-10 (92.03\%) では、それぞれ 0.48\% と 6.52\% の一般化ギャップがある。
我々は、理論的な主張を検証するために、完全に再現可能なコードと境界の数値計算を提供する。
我々の研究は、理論的な洞察と実践的な進歩を橋渡しし、DNNの一般化を強化するための堅牢なフレームワークを提供し、高度なアプリケーションに適している。
関連論文リスト
- NIRVANA: Structured pruning reimagined for large language models compression [50.651730342011014]
直近のゼロショット保存精度と頑健な微調整のバランスをとるために, NIRVANAを導入した。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは層やモジュール間の適応的な空間割当機構を取り入れている。
Llama3, Qwen, T5モデルで行った実験では、NIRVANAは等価な空間制約の下で既存の構造化プルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-17T17:59:00Z) - Insights from Gradient Dynamics: Gradient Autoscaled Normalization [0.0]
勾配力学は、ディープニューラルネットワークの安定性と一般化を決定する上で中心的な役割を果たす。
本研究では,階層間の一貫した変化と畳み込みネットワークのグローバルスケールを示すため,学習中に勾配のばらつきと標準偏差がどのように進化するかを実証的に分析する。
これらの観測により、勾配のスケーリングと自然進化を整合させる超パラメータフリー勾配正規化法を提案する。
論文 参考訳(メタデータ) (2025-09-03T19:54:23Z) - Conformal Symplectic Optimization for Stable Reinforcement Learning [21.491621524500736]
相対論的運動エネルギーを利用することで、RADは特殊相対性理論と制限パラメータの更新を有限速以下に取り入れ、異常な影響を効果的に緩和する。
特にRADは155.1%のパフォーマンス向上を実現しており、アタリゲームのトレーニングにおける有効性を示している。
論文 参考訳(メタデータ) (2024-12-03T09:07:31Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。
本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Boosting Adversarial Robustness From The Perspective of Effective Margin
Regularization [58.641705224371876]
ディープニューラルネットワーク(DNN)の敵対的脆弱性は、ここ数年で積極的に研究されている。
本稿では,クロスエントロピー損失のスケール変動特性について検討する。
提案した有効マージン正則化(EMR)は,大きな有効マージンを学習し,標準トレーニングと対向トレーニングの両方において対向的ロバスト性を高めることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:16:56Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Multiplicative Reweighting for Robust Neural Network Optimization [51.67267839555836]
MW(multiplicative weight)更新は、専門家のアドバイスにより、適度なデータ破損に対して堅牢である。
MWはラベルノイズの存在下でニューラルネットワークの精度を向上することを示す。
論文 参考訳(メタデータ) (2021-02-24T10:40:25Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。