論文の概要: MoMo: Momentum Models for Adaptive Learning Rates
- arxiv url: http://arxiv.org/abs/2305.07583v3
- Date: Wed, 5 Jun 2024 14:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 04:46:49.367910
- Title: MoMo: Momentum Models for Adaptive Learning Rates
- Title(参考訳): MoMo:適応学習率のためのモーメントモデル
- Authors: Fabian Schaipp, Ruben Ohana, Michael Eickenberg, Aaron Defazio, Robert M. Gower,
- Abstract要約: 我々は任意の運動量法で利用できる新しいPolyak型適応学習率を開発した。
我々はまず,SGD-Mのモーメントモデルに基づく適応学習率であるMoMoを開発した。
運動量に基づく手法と組み合わせてMoMoを利用できることを示すとともに,MoMo-Adamの開発によってこれを実証する。
- 参考スコア(独自算出の注目度): 14.392926033512069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a modern machine learning architecture on a new task requires extensive learning-rate tuning, which comes at a high computational cost. Here we develop new Polyak-type adaptive learning rates that can be used on top of any momentum method, and require less tuning to perform well. We first develop MoMo, a Momentum Model based adaptive learning rate for SGD-M (stochastic gradient descent with momentum). MoMo uses momentum estimates of the losses and gradients sampled at each iteration to build a model of the loss function. Our model makes use of any known lower bound of the loss function by using truncation, e.g. most losses are lower-bounded by zero. The model is then approximately minimized at each iteration to compute the next step. We show how MoMo can be used in combination with any momentum-based method, and showcase this by developing MoMo-Adam, which is Adam with our new model-based adaptive learning rate. We show that MoMo attains a $\mathcal{O}(1/\sqrt{K})$ convergence rate for convex problems with interpolation, needing knowledge of no problem-specific quantities other than the optimal value. Additionally, for losses with unknown lower bounds, we develop on-the-fly estimates of a lower bound, that are incorporated in our model. We show that MoMo and MoMo-Adam improve over SGD-M and Adam in terms of robustness to hyperparameter tuning for training image classifiers on MNIST, CIFAR, and Imagenet, for recommender systems on Criteo, for a transformer model on the translation task IWSLT14, and for a diffusion model.
- Abstract(参考訳): 最新の機械学習アーキテクチャを新しいタスクでトレーニングするには、大規模な学習速度チューニングが必要であり、計算コストが高い。
そこで我々は,任意の運動量法上で使用可能な新しいPolyak型適応学習率を開発し,チューニングを少なくして性能を向上する。
まず,モメンタムモデルに基づくSGD-Mの適応学習速度であるMoMoを開発した。
MoMoは、各イテレーションでサンプリングされた損失と勾配の運動量推定を使用して、損失関数のモデルを構築する。
我々のモデルは、トランケーションを用いて、損失関数の既知の下限を任意の下限で利用し、例えば、ほとんどの損失はゼロで下限となる。
次に、モデルは各イテレーションでほぼ最小化され、次のステップを計算します。
我々は、モーメントベースの手法と組み合わせてMoMoをどのように使用できるかを示し、新しいモデルベースの適応学習率のAdamであるMoMo-Adamを開発することでこれを実証する。
補間を伴う凸問題に対して、MoMoが$\mathcal{O}(1/\sqrt{K})$収束率に達し、最適値以外の問題固有量の知識を必要としないことを示す。
さらに、未知の下界を持つ損失に対して、我々のモデルに組み込まれた下界のオンザフライ推定を開発する。
我々は,MNIST,CIFAR,Imagenet上の画像分類器のトレーニング,Criteo上のレコメンデータシステム,翻訳タスクIWSLT14上のトランスフォーマーモデル,拡散モデルに対して,SGD-MとAdamよりもMoMoとMoMo-Adamが頑健であることを示す。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - Maximum Entropy Model Correction in Reinforcement Learning [29.577846986302518]
本稿では,強化学習における近似モデルを用いた計画手法の提案と理論的解析を行う。
モデル補正値イテレーション(MoCoVI)アルゴリズムとそのサンプルベース変種MoCoDynaを紹介する。
従来のモデルベースアルゴリズムとは異なり、MoCoVIとMoCoDynaは近似モデルを有効に利用し、依然として正しい値関数に収束する。
論文 参考訳(メタデータ) (2023-11-29T18:00:41Z) - Noise-in, Bias-out: Balanced and Real-time MoCap Solving [13.897997236684283]
機械学習を用いて、雑音のないマーカー推定をリアルタイムで解く。
安価なセンサを用いても、ロバストなマーカーベースのモーションキャプチャ(MoCap)を提供する。
論文 参考訳(メタデータ) (2023-09-25T17:55:24Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Fast and Robust Cascade Model for Multiple Degradation Single Image
Super-Resolution [2.1574781022415364]
SISR(Single Image Super-Resolution)は、近年注目されている低レベルのコンピュータビジョン問題の一つである。
本稿では、畳み込みニューラルネットワーク(CNN)のカスケードモデルについて、新しい定式化を提案する。
外部知識を用いて各サブモジュールの出力を制限することで,より密結合なCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-16T18:59:49Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。