論文の概要: MoMo: Momentum Models for Adaptive Learning Rates
- arxiv url: http://arxiv.org/abs/2305.07583v1
- Date: Fri, 12 May 2023 16:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 12:21:50.345648
- Title: MoMo: Momentum Models for Adaptive Learning Rates
- Title(参考訳): MoMo:適応学習率のためのモーメントモデル
- Authors: Fabian Schaipp and Ruben Ohana and Michael Eickenberg and Aaron
Defazio and Robert M. Gower
- Abstract要約: 我々は任意の運動量法で利用できる新しい適応学習率を提案する。
我々は,新たな適応学習率とともに,運動量を持つSGDであるMoMoとMoMo-Adamを開発した。
数値実験により,我々のMoMo法はSGDMとAdamよりも精度とロバスト性に優れていた。
- 参考スコア(独自算出の注目度): 18.160160829597412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present new adaptive learning rates that can be used with any momentum
method. To showcase our new learning rates we develop MoMo and MoMo-Adam, which
are SGD with momentum (SGDM) and Adam together with our new adaptive learning
rates. Our MoMo methods are motivated through model-based stochastic
optimization, wherein we use momentum estimates of the batch losses and
gradients sampled at each iteration to build a model of the loss function. Our
model also makes use of any known lower bound of the loss function by using
truncation. Indeed most losses are bounded below by zero. We then approximately
minimize this model at each iteration to compute the next step. For losses with
unknown lower bounds, we develop new on-the-fly estimates of the lower bound
that we use in our model. Numerical experiments show that our MoMo methods
improve over SGDM and Adam in terms of accuracy and robustness to
hyperparameter tuning for training image classifiers on MNIST, CIFAR10,
CIFAR100, Imagenet32, DLRM on the Criteo dataset, and a transformer model on
the translation task IWSLT14.
- Abstract(参考訳): 我々は任意の運動量法で利用できる新しい適応学習率を提案する。
新たな学習率を示すために,運動量を持つSGD(SGDM)であるMoMoとMoMo-Adamを開発した。
提案手法はモデルに基づく確率的最適化によって動機付けされ,各イテレーションでサンプリングされたバッチ損失と勾配のモーメント推定を用いて損失関数のモデルを構築する。
また, このモデルでは, トランケーションを用いて, 損失関数の既知の下限も利用している。
実際、ほとんどの損失は0以下である。
次に、このモデルを各イテレーションでほぼ最小化し、次のステップを計算します。
未知の下界を持つ損失に対して、我々はモデルで使用する下界の新しいオンザフライ推定を開発する。
数値実験により, mnist, cifar10, cifar100, imagenet32, dlrm, criteoデータセット上の画像分類器, 変換タスクiwslt14上のトランスフォーマーモデルにおけるハイパーパラメータチューニングの精度と頑健性の観点から, sgdmおよびadamよりもmomo法が改善することを示した。
関連論文リスト
- LaDiMo: Layer-wise Distillation Inspired MoEfier [1.6199400106794555]
本稿では,Transformerベースの非MoEモデルを最小限のトレーニングコストでMoEモデルに変換する新しいアルゴリズムLaDiMoを提案する。
100Kトークンのみを用いてLLaMA2-7BモデルをMoEモデルに変換することにより,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-08-08T07:37:26Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - Maximum Entropy Model Correction in Reinforcement Learning [29.577846986302518]
本稿では,強化学習における近似モデルを用いた計画手法の提案と理論的解析を行う。
モデル補正値イテレーション(MoCoVI)アルゴリズムとそのサンプルベース変種MoCoDynaを紹介する。
従来のモデルベースアルゴリズムとは異なり、MoCoVIとMoCoDynaは近似モデルを有効に利用し、依然として正しい値関数に収束する。
論文 参考訳(メタデータ) (2023-11-29T18:00:41Z) - Noise-in, Bias-out: Balanced and Real-time MoCap Solving [13.897997236684283]
機械学習を用いて、雑音のないマーカー推定をリアルタイムで解く。
安価なセンサを用いても、ロバストなマーカーベースのモーションキャプチャ(MoCap)を提供する。
論文 参考訳(メタデータ) (2023-09-25T17:55:24Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Fast and Robust Cascade Model for Multiple Degradation Single Image
Super-Resolution [2.1574781022415364]
SISR(Single Image Super-Resolution)は、近年注目されている低レベルのコンピュータビジョン問題の一つである。
本稿では、畳み込みニューラルネットワーク(CNN)のカスケードモデルについて、新しい定式化を提案する。
外部知識を用いて各サブモジュールの出力を制限することで,より密結合なCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-16T18:59:49Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。