論文の概要: Heavy-Ball Momentum Method in Continuous Time and Discretization Error Analysis
- arxiv url: http://arxiv.org/abs/2506.14806v1
- Date: Tue, 03 Jun 2025 14:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.692659
- Title: Heavy-Ball Momentum Method in Continuous Time and Discretization Error Analysis
- Title(参考訳): 連続時間における重波モーメント法と離散化誤差解析
- Authors: Bochen Lyu, Xiaojing Zhang, Fangyi Zheng, He Wang, Zheng Wang, Zhanxing Zhu,
- Abstract要約: 本稿では, 離散重ボール運動量法(HB)に対して, 連続時間近似, ピースワイド連続微分方程式を明示的離散化誤差で確立する。
アプリケーションとして、方向スムーズ性の新しい暗黙的正規化を見つけ、対角線ネットワークにおけるHBの暗黙的バイアスを調べる。
- 参考スコア(独自算出の注目度): 25.11765532986711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper establishes a continuous time approximation, a piece-wise continuous differential equation, for the discrete Heavy-Ball (HB) momentum method with explicit discretization error. Investigating continuous differential equations has been a promising approach for studying the discrete optimization methods. Despite the crucial role of momentum in gradient-based optimization methods, the gap between the original discrete dynamics and the continuous time approximations due to the discretization error has not been comprehensively bridged yet. In this work, we study the HB momentum method in continuous time while putting more focus on the discretization error to provide additional theoretical tools to this area. In particular, we design a first-order piece-wise continuous differential equation, where we add a number of counter terms to account for the discretization error explicitly. As a result, we provide a continuous time model for the HB momentum method that allows the control of discretization error to arbitrary order of the step size. As an application, we leverage it to find a new implicit regularization of the directional smoothness and investigate the implicit bias of HB for diagonal linear networks, indicating how our results can be used in deep learning. Our theoretical findings are further supported by numerical experiments.
- Abstract(参考訳): 本稿では, 離散重ボール運動量法(HB)に対して, 連続時間近似, ピースワイド連続微分方程式を明示的離散化誤差で確立する。
連続微分方程式の探索は離散最適化法の研究において有望なアプローチである。
勾配に基づく最適化手法における運動量の重要性にもかかわらず、離散力学と離散化誤差による連続時間近似とのギャップは、まだ包括的に橋渡しされていない。
本研究では,HB運動量法を連続的に検討し,離散化誤差に重きを置き,この領域に新たな理論ツールを提供する。
特に一階のピースワイド連続微分方程式を設計し、離散化誤差を明示的に考慮する反項を多数追加する。
その結果、ステップサイズの任意の順序で離散化誤差を制御できるHB運動量法の連続時間モデルが得られた。
アプリケーションとして、方向スムーズ性の新しい暗黙的正規化を見つけ、対角線ネットワークにおけるHBの暗黙的偏見を調査し、この結果がディープラーニングにどのように役立つかを示す。
我々の理論的知見は数値実験によってさらに裏付けられている。
関連論文リスト
- Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - On Bellman equations for continuous-time policy evaluation I: discretization and approximation [3.704688279256839]
本研究では,連続時間拡散過程の離散的に観測された軌道から値関数を計算する問題について検討する。
離散時間強化学習と互換性のある,容易に実装可能な数値スキームに基づく新しいアルゴリズムのクラスを開発する。
論文 参考訳(メタデータ) (2024-07-08T14:05:03Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Toward Equation of Motion for Deep Neural Networks: Continuous-time
Gradient Descent and Discretization Error Analysis [5.71097144710995]
我々はディープニューラルネットワーク(DNN)のための「運動方程式」(EoM)を導出し、解く。
EoM は GD の離散学習力学を正確に記述した連続微分方程式である。
論文 参考訳(メタデータ) (2022-10-28T05:13:50Z) - Temporal Difference Learning with Continuous Time and State in the
Stochastic Setting [0.0]
継続的政策評価の問題点を考察する。
これは、制御されていない連続時間ダイナミクスと報酬関数に関連付けられた値関数を観察を通して学習する。
論文 参考訳(メタデータ) (2022-02-16T10:10:53Z) - The Connection between Discrete- and Continuous-Time Descriptions of
Gaussian Continuous Processes [60.35125735474386]
我々は、一貫した推定子をもたらす離散化が粗粒化下での不変性を持つことを示す。
この結果は、導関数再構成のための微分スキームと局所時間推論アプローチの組み合わせが、2次または高次微分方程式の時系列解析に役立たない理由を説明する。
論文 参考訳(メタデータ) (2021-01-16T17:11:02Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - An Empirical Study on Feature Discretization [8.900900745767869]
そこで我々はローカルリニアと呼ばれる新しい離散化手法を提案する。
2つの数値データセットの実験により、LLEはモデルパラメータをはるかに少なくして従来の離散化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-04-27T06:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。