論文の概要: Torque-Aware Momentum
- arxiv url: http://arxiv.org/abs/2412.18790v1
- Date: Wed, 25 Dec 2024 05:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:41.604603
- Title: Torque-Aware Momentum
- Title(参考訳): トルク対応モーメント
- Authors: Pranshu Malviya, Goncalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Gintare Karolina Dziugaite, Razvan Pascanu, Sarath Chandar,
- Abstract要約: 本稿では,新しい勾配と以前の運動量との角度に基づく減衰率を導入し,トレーニング中の更新方向を安定化させるTorque-Aware Momentum (TAM)を提案する。
実験の結果,SGDとAdamの双方と組み合わせることができるTAMは探索性を高め,分散シフトをより効果的に扱えるようになり,様々なタスクにおける一般化性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 28.72697062644016
- License:
- Abstract: Efficiently exploring complex loss landscapes is key to the performance of deep neural networks. While momentum-based optimizers are widely used in state-of-the-art setups, classical momentum can still struggle with large, misaligned gradients, leading to oscillations. To address this, we propose Torque-Aware Momentum (TAM), which introduces a damping factor based on the angle between the new gradients and previous momentum, stabilizing the update direction during training. Empirical results show that TAM, which can be combined with both SGD and Adam, enhances exploration, handles distribution shifts more effectively, and improves generalization performance across various tasks, including image classification and large language model fine-tuning, when compared to classical momentum-based optimizers.
- Abstract(参考訳): 複雑なロスランドスケープを効率的に探索することが、ディープニューラルネットワークの性能の鍵となる。
運動量に基づくオプティマイザは最先端のセットアップで広く使われているが、古典的な運動量は大きな、不整合な勾配に苦しむことができ、振動につながる。
そこで本研究では,新しい勾配と過去の運動量との角度に基づく減衰係数を導入し,トレーニング中の更新方向を安定化するTorque-Aware Momentum (TAM)を提案する。
実験結果から,SGDとAdamの双方と組み合わせることができるTAMは探索性を高め,分散シフトをより効果的に処理し,古典的なモーメントベースオプティマイザと比較して画像分類や大規模言語モデルの微調整など,様々なタスクにおける一般化性能を向上させることが示された。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Ordered Momentum for Asynchronous SGD [12.810976838406193]
本稿では,ASGDのための運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、運動量は指数に基づいて順に勾配を整理することで ASGD に組み込まれる。
実験結果から,OrMoはASGDに比べてコンバージェンス性能がよいことが示された。
論文 参考訳(メタデータ) (2024-07-27T11:35:19Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Accelerating Continuous Variable Coherent Ising Machines via Momentum [16.545815849819043]
本稿では,運動量やアダムといったよりチューニング可能な最適化手法を用いてCV-CIMのダイナミクスを改良することを提案する。
我々は、Adam-CV-CIMの運動量とサンプルのAdam-CV-CIMの性能がチューナブルフレームワークとしてより安定であることが示している。
論文 参考訳(メタデータ) (2024-01-22T17:18:53Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Training Deep Neural Networks with Adaptive Momentum Inspired by the
Quadratic Optimization [20.782428252187024]
重球運動量の最適選択に着想を得た新しい適応運動量を提案する。
提案した適応重球運動量は勾配降下(SGD)とアダムを改善することができる。
我々は、画像分類、言語モデリング、機械翻訳を含む幅広い機械学習ベンチマークにおいて、SGDとAdamの効率を新しい適応運動量で検証する。
論文 参考訳(メタデータ) (2021-10-18T07:03:48Z) - Escaping Saddle Points Faster with Stochastic Momentum [9.485782209646445]
ディープネットワークでは、モーメントは収束時間を大幅に改善しているように見える。
我々は,SGDを高速に回避できるため,運動量が深度トレーニングを改善することを示す。
また、理想運動量パラメータの選択方法を示す。
論文 参考訳(メタデータ) (2021-06-05T23:34:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。