論文の概要: Adaptive Momentum and Nonlinear Damping for Neural Network Training
- arxiv url: http://arxiv.org/abs/2602.00334v1
- Date: Fri, 30 Jan 2026 21:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.124203
- Title: Adaptive Momentum and Nonlinear Damping for Neural Network Training
- Title(参考訳): ニューラルネットワークトレーニングのための適応モーメントと非線形ダンピング
- Authors: Aikaterini Karoni, Rajit Rajpal, Benedict Leimkuhler, Gabriel Stoltz,
- Abstract要約: 本稿では,各モデルパラメータの運動エネルギーによって制御される個別の適応運動量係数を導入する,大規模最適化のための連続時間スキームを提案する。
適応摩擦は構造力学からの抑制機構である立方減衰と関係があることを実証する。
- 参考スコア(独自算出の注目度): 1.0149624140985478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a continuous-time scheme for large-scale optimization that introduces individual, adaptive momentum coefficients regulated by the kinetic energy of each model parameter. This approach automatically adjusts to local landscape curvature to maintain stability without sacrificing convergence speed. We demonstrate that our adaptive friction can be related to cubic damping, a suppression mechanism from structural dynamics. Furthermore, we introduce two specific optimization schemes by augmenting the continuous dynamics of mSGD and Adam with a cubic damping term. Empirically, our methods demonstrate robustness and match or outperform Adam on training ViT, BERT, and GPT2 tasks where mSGD typically struggles. We further provide theoretical results establishing the exponential convergence of the proposed schemes.
- Abstract(参考訳): 本稿では,各モデルパラメータの運動エネルギーによって制御される個別の適応運動量係数を導入する,大規模最適化のための連続時間スキームを提案する。
このアプローチは、収束速度を犠牲にすることなく、局所的な地形曲率に自動的に調整し、安定性を維持する。
我々は,我々の適応摩擦が構造力学からの抑制機構である立方減衰と関係があることを実証した。
さらに,mSGDとAdamの連続力学を3次減衰項で拡張することにより,2つの最適化手法を導入する。
実験では,mSGD が苦しむ ViT ,BERT および GPT2 タスクのトレーニングにおいて,Adam の頑健さを実証し,Adam より優れているか,あるいは優れていた。
さらに,提案手法の指数収束性を確立する理論的結果を提供する。
関連論文リスト
- Towards a Unified Analysis of Neural Networks in Nonparametric Instrumental Variable Regression: Optimization and Generalization [66.08522228989634]
非パラメトリックインスツルメンタル変数回帰(NPIV)における2段階最小二乗法(2SLS)アプローチのためのニューラルネットワークの最初の大域収束結果を確立する。
これは平均場ランゲヴィンダイナミクス(MFLD)を通して持ち上げられた視点を採用することで達成される。
論文 参考訳(メタデータ) (2025-11-18T17:51:17Z) - Efficient Design of Compliant Mechanisms Using Multi-Objective Optimization [50.24983453990065]
そこで本研究では,大きな角状脳卒中を許容できる適合型クロスヒンジ機構の合成について述べる。
キネトスタティックな性能測定に基づいて,多目的最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-04-23T06:29:10Z) - Conformal Symplectic Optimization for Stable Reinforcement Learning [21.491621524500736]
相対論的運動エネルギーを利用することで、RADは特殊相対性理論と制限パラメータの更新を有限速以下に取り入れ、異常な影響を効果的に緩和する。
特にRADは155.1%のパフォーマンス向上を実現しており、アタリゲームのトレーニングにおける有効性を示している。
論文 参考訳(メタデータ) (2024-12-03T09:07:31Z) - Neural Projected Quantum Dynamics: a systematic study [0.0]
モンテカルロ変分法によるユニタリ量子力学の古典シミュレーションの課題について検討する。
予測時間依存モンテカルロ法 (p-tVMC) の完全形式化と大幅な改良を行った。
この研究は、大規模2次元量子システムの力学をシミュレーションする強力なフレームワークとしてp-tVMCを確立する。
論文 参考訳(メタデータ) (2024-10-14T17:01:33Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Nesterov Meets Optimism: Rate-Optimal Separable Minimax Optimization [108.35402316802765]
本稿では,新しい一階最適化アルゴリズムであるAcceleratedGradient-OptimisticGradient (AG-OG) Ascentを提案する。
我々はAG-OGが様々な設定に対して最適収束率(定数まで)を達成することを示す。
アルゴリズムを拡張して設定を拡張し、bi-SC-SCとbi-C-SCの両方で最適な収束率を達成する。
論文 参考訳(メタデータ) (2022-10-31T17:59:29Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Role of stochastic noise and generalization error in the time
propagation of neural-network quantum states [0.0]
ニューラルネットワーク量子状態(NQS)は、平衡外力学をシミュレートするのに適切な変分アンサッツであることが示されている。
安定かつ正確な時間伝搬は、十分に規則化された変動力学のレギュレーションで達成できることを示す。
論文 参考訳(メタデータ) (2021-05-03T17:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。