論文の概要: Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate
- arxiv url: http://arxiv.org/abs/2506.22479v1
- Date: Sun, 22 Jun 2025 08:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.401064
- Title: Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate
- Title(参考訳): Hindsight-Guided Momentum (HGM) Optimizer : Adaptive Learning Rateへのアプローチ
- Authors: Krisanu Sarkar,
- Abstract要約: 直近のアップデートに基づいて学習率を適応的にスケールする一階最適化アルゴリズムであるHindsight-Guided Momentumを導入する。
HGMは、コヒーレントな方向と矛盾する方向の学習速度を加速する後向きのメカニズムによってこの問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Hindsight-Guided Momentum (HGM), a first-order optimization algorithm that adaptively scales learning rates based on the directional consistency of recent updates. Traditional adaptive methods, such as Adam or RMSprop , adapt learning dynamics using only the magnitude of gradients, often overlooking important geometric cues.Geometric cues refer to directional information, such as the alignment between current gradients and past updates, which reflects the local curvature and consistency of the optimization path. HGM addresses this by incorporating a hindsight mechanism that evaluates the cosine similarity between the current gradient and accumulated momentum. This allows it to distinguish between coherent and conflicting gradient directions, increasing the learning rate when updates align and reducing it in regions of oscillation or noise. The result is a more responsive optimizer that accelerates convergence in smooth regions of the loss surface while maintaining stability in sharper or more erratic areas. Despite this added adaptability, the method preserves the computational and memory efficiency of existing optimizers.By more intelligently responding to the structure of the optimization landscape, HGM provides a simple yet effective improvement over existing approaches, particularly in non-convex settings like that of deep neural network training.
- Abstract(参考訳): 直近のアップデートの方向性の整合性に基づいて学習率を適応的にスケールする一階最適化アルゴリズムであるHindsight-Guided Momentum (HGM)を紹介する。
アダム (Adam) や RMSprop (RMSprop) のような従来の適応的手法は、勾配の程度だけを用いて学習力学を適応させ、しばしば重要な幾何学的手がかりを見渡す。幾何学的手がかりは、現在の勾配と過去の更新との整合のような方向情報を指し、局所的な曲率と最適化経路の整合性を反映している。
HGMは、現在の勾配と累積運動量の間のコサイン類似性を評価する後向き機構を組み込むことでこの問題に対処する。
これにより、一貫性のある勾配方向と矛盾する勾配方向を区別でき、更新時に学習率が向上し、振動やノイズの領域でそれを減らすことができる。
その結果、より応答性の高い最適化器が損失面の滑らかな領域の収束を加速し、より鋭い領域やより不安定な領域の安定性を維持した。
この追加された適応性にもかかわらず、この方法は既存のオプティマイザの計算とメモリ効率を保ち、最適化ランドスケープの構造によりインテリジェントに対応して、HGMは既存のアプローチ、特にディープニューラルネットワークトレーニングのような非凸設定に対して、シンプルで効果的な改善を提供する。
関連論文リスト
- Online Learning-guided Learning Rate Adaptation via Gradient Alignment [25.688764889273237]
大規模ディープラーニングモデルの性能は、学習率の微調整に大きく依存する。
本稿では, GALA (Gradient Alignment-based Adaptation) と呼ばれるフレームワークを提案する。
Follow-the-Regularized-Leaderのようなオンライン学習アルゴリズムと組み合わせることで、フレキシブルで適応的な学習スケジュールを生成する。
論文 参考訳(メタデータ) (2025-06-10T03:46:41Z) - AYLA: Amplifying Gradient Sensitivity via Loss Transformation in Non-Convex Optimization [0.0]
Gradient Descent (SGD)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では、動的トレーニングを強化する新しいフレームワークであるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks [5.507301894089302]
本稿では、勾配ベクトルの和正規化を係数として、ディープニューラルネットワークの新しい最適化手法を研究するための最初の試みである。
提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。
論文 参考訳(メタデータ) (2024-07-24T02:23:18Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。