Fugu-MT 論文翻訳(概要): MoMo: Momentum Models for Adaptive Learning Rates

論文の概要: MoMo: Momentum Models for Adaptive Learning Rates

arxiv url: http://arxiv.org/abs/2305.07583v1
Date: Fri, 12 May 2023 16:25:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-15 12:21:50.345648
Title: MoMo: Momentum Models for Adaptive Learning Rates
Title（参考訳）: MoMo:適応学習率のためのモーメントモデル
Authors: Fabian Schaipp and Ruben Ohana and Michael Eickenberg and Aaron Defazio and Robert M. Gower
Abstract要約: 我々は任意の運動量法で利用できる新しい適応学習率を提案する。我々は,新たな適応学習率とともに,運動量を持つSGDであるMoMoとMoMo-Adamを開発した。数値実験により,我々のMoMo法はSGDMとAdamよりも精度とロバスト性に優れていた。
参考スコア（独自算出の注目度）: 18.160160829597412
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present new adaptive learning rates that can be used with any momentum method. To showcase our new learning rates we develop MoMo and MoMo-Adam, which are SGD with momentum (SGDM) and Adam together with our new adaptive learning rates. Our MoMo methods are motivated through model-based stochastic optimization, wherein we use momentum estimates of the batch losses and gradients sampled at each iteration to build a model of the loss function. Our model also makes use of any known lower bound of the loss function by using truncation. Indeed most losses are bounded below by zero. We then approximately minimize this model at each iteration to compute the next step. For losses with unknown lower bounds, we develop new on-the-fly estimates of the lower bound that we use in our model. Numerical experiments show that our MoMo methods improve over SGDM and Adam in terms of accuracy and robustness to hyperparameter tuning for training image classifiers on MNIST, CIFAR10, CIFAR100, Imagenet32, DLRM on the Criteo dataset, and a transformer model on the translation task IWSLT14.
Abstract（参考訳）: 我々は任意の運動量法で利用できる新しい適応学習率を提案する。新たな学習率を示すために,運動量を持つSGD(SGDM)であるMoMoとMoMo-Adamを開発した。提案手法はモデルに基づく確率的最適化によって動機付けされ,各イテレーションでサンプリングされたバッチ損失と勾配のモーメント推定を用いて損失関数のモデルを構築する。また, このモデルでは, トランケーションを用いて, 損失関数の既知の下限も利用している。実際、ほとんどの損失は0以下である。次に、このモデルを各イテレーションでほぼ最小化し、次のステップを計算します。未知の下界を持つ損失に対して、我々はモデルで使用する下界の新しいオンザフライ推定を開発する。数値実験により, mnist, cifar10, cifar100, imagenet32, dlrm, criteoデータセット上の画像分類器, 変換タスクiwslt14上のトランスフォーマーモデルにおけるハイパーパラメータチューニングの精度と頑健性の観点から, sgdmおよびadamよりもmomo法が改善することを示した。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
LoRA Unlearns More and Retains More (Student Abstract) [0.0]
PruneLoRAは、モデルに低ランクの更新を適用することで、大規模なパラメータ更新の必要性を減らす。そこで我々はLoRAを利用してプルーンドモデルのパラメータのサブセットを選択的に修正し、計算コスト、メモリ要件を低減し、残りのクラスの性能を維持するモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-11-16T16:47:57Z)
LaDiMo: Layer-wise Distillation Inspired MoEfier [1.6199400106794555]
本稿では,Transformerベースの非MoEモデルを最小限のトレーニングコストでMoEモデルに変換する新しいアルゴリズムLaDiMoを提案する。 100Kトークンのみを用いてLLaMA2-7BモデルをMoEモデルに変換することにより,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-08-08T07:37:26Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Maximum Entropy Model Correction in Reinforcement Learning [29.577846986302518]
本稿では,強化学習における近似モデルを用いた計画手法の提案と理論的解析を行う。モデル補正値イテレーション(MoCoVI)アルゴリズムとそのサンプルベース変種MoCoDynaを紹介する。従来のモデルベースアルゴリズムとは異なり、MoCoVIとMoCoDynaは近似モデルを有効に利用し、依然として正しい値関数に収束する。
論文参考訳（メタデータ） (2023-11-29T18:00:41Z)
Noise-in, Bias-out: Balanced and Real-time MoCap Solving [13.897997236684283]
機械学習を用いて、雑音のないマーカー推定をリアルタイムで解く。安価なセンサを用いても、ロバストなマーカーベースのモーションキャプチャ(MoCap)を提供する。
論文参考訳（メタデータ） (2023-09-25T17:55:24Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文参考訳（メタデータ） (2021-02-11T16:27:31Z)
Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文参考訳（メタデータ） (2021-02-07T17:56:50Z)
Fast and Robust Cascade Model for Multiple Degradation Single Image Super-Resolution [2.1574781022415364]
SISR(Single Image Super-Resolution)は、近年注目されている低レベルのコンピュータビジョン問題の一つである。本稿では、畳み込みニューラルネットワーク(CNN)のカスケードモデルについて、新しい定式化を提案する。外部知識を用いて各サブモジュールの出力を制限することで,より密結合なCNNアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-11-16T18:59:49Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。