論文の概要: Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants
- arxiv url: http://arxiv.org/abs/2502.02431v1
- Date: Tue, 04 Feb 2025 15:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:40.261156
- Title: Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants
- Title(参考訳): スケジュールフリーオプティマイザ, AdEMAMix, および加速SGD変数間の接続
- Authors: Depen Morwani, Nikhil Vyas, Hanlin Zhang, Sham Kakade,
- Abstract要約: 本稿では,AdEMAMixが勾配降下の加速バージョンに最もよく似ていることを示す。
我々は、大小のバッチサイズ設定で同じ性能を維持する、Simplified-AdEMAMixと呼ばれるAdEMAMixの修正を導入する。
- 参考スコア(独自算出の注目度): 5.08749017242817
- License:
- Abstract: Recent advancements in deep learning optimization have introduced new algorithms, such as Schedule-Free optimizers, AdEMAMix, MARS and Lion which modify traditional momentum mechanisms. In a separate line of work, theoretical acceleration of stochastic gradient descent (SGD) in noise-dominated regime has been achieved by decoupling the momentum coefficient from the current gradient's weight. In this paper, we establish explicit connections between these two lines of work. We substantiate our theoretical findings with preliminary experiments on a 150m language modeling task. We find that AdEMAMix, which most closely resembles accelerated versions of stochastic gradient descent, exhibits superior performance. Building on these insights, we introduce a modification to AdEMAMix, termed Simplified-AdEMAMix, which maintains the same performance as AdEMAMix across both large and small batch-size settings while eliminating the need for two different momentum terms. The code for Simplified-AdEMAMix is available on the repository: https://github.com/DepenM/Simplified-AdEMAMix/.
- Abstract(参考訳): 近年のディープラーニング最適化の進歩により、Schedule-Freeオプティマイザ、AdEMAMix、MARS、Lionなどのアルゴリズムが導入された。
別系統の作業では、電流勾配の重みから運動量係数を分離することにより、雑音支配状態における確率勾配降下(SGD)の理論的な加速が達成されている。
本稿では,これらの2つの作業行間の明示的な関連性を確立する。
本稿では,150m言語モデリングタスクの予備実験により理論的知見を裏付ける。
確率勾配勾配の加速バージョンに最も近いAdEMAMixは,優れた性能を示す。
これらの知見に基づいて,AdEMAMix を改良した Simplified-AdEMAMix を導入する。
Simplified-AdEMAMixのコードはリポジトリで入手できる。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - The AdEMAMix Optimizer: Better, Faster, Older [24.470432924661324]
この研究は、過去の勾配を蓄積するための単一のEMAの使用に疑問を投げかけ、この選択がいかに準最適であるかを実証的に示す。
本稿では,2つのEMAを混合したAdamの簡単な修正であるAdEMAMixを提案する。
言語モデリングと画像分類に関する我々の実験は、驚くほど驚くべきことに、勾配が数万のステップに関連があることを示しています。
論文 参考訳(メタデータ) (2024-09-05T00:13:16Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - Sparse Backpropagation for MoE Training [118.31785160874024]
バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるSparseMixerを紹介する。
SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して正確な勾配近似を行う。
事前トレーニングと機械翻訳の両方にSparseMixerをSwitch Transformerに適用すると、SparseMixerのパフォーマンスは大幅に向上する。
論文 参考訳(メタデータ) (2023-10-01T22:43:57Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Learned Gradient of a Regularizer for Plug-and-Play Gradient Descent [37.41458921829744]
Plug-and-Playフレームワークは、事前の高度なイメージをアルゴリズムに統合することを可能にする。
Denoising (RED)アルゴリズムによる正規化は、画像復元において画期的な方法の2つの例である。
正規化器の勾配に対応するネットワークとともにデノイザを訓練することが可能であることを示す。
論文 参考訳(メタデータ) (2022-04-29T08:33:33Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。