論文の概要: MKOR: Momentum-Enabled Kronecker-Factor-Based Optimizer Using Rank-1
Updates
- arxiv url: http://arxiv.org/abs/2306.01685v2
- Date: Tue, 30 Jan 2024 06:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:30:49.876582
- Title: MKOR: Momentum-Enabled Kronecker-Factor-Based Optimizer Using Rank-1
Updates
- Title(参考訳): MKOR: Rank-1 アップデートを用いたモーメントム付きクロネッカー型最適化器
- Authors: Mohammad Mozaffari, Sikan Li, Zhao Zhang, Maryam Mehri Dehnavi
- Abstract要約: この研究は、深層ニューラルネットワーク(DNN)のトレーニング時間と収束性を改善するMKORと呼ばれるMomentum-Enabled Kronecker-Factor-Based Using Rank-1 updateを提案する。
2次手法は、より収束率が高い一方、モデルサイズまたは/またはトレーニングバッチサイズに関して3次複雑さを持つ。
2次更新の通信複雑性を低減し、線形通信複雑性を達成することにより、MKORは2次更新の頻度を増加させる。
- 参考スコア(独自算出の注目度): 7.085693338464726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a Momentum-Enabled Kronecker-Factor-Based Optimizer Using
Rank-1 updates, called MKOR, that improves the training time and convergence
properties of deep neural networks (DNNs). Second-order techniques, while
enjoying higher convergence rates vs first-order counterparts, have cubic
complexity with respect to either the model size and/or the training batch
size. Hence they exhibit poor scalability and performance in transformer
models, e.g. large language models (LLMs), because the batch sizes in these
models scale by the attention mechanism sequence length, leading to large model
size and batch sizes. MKOR's complexity is quadratic with respect to the model
size, alleviating the computation bottlenecks in second-order methods. Because
of their high computation complexity, state-of-the-art implementations of
second-order methods can only afford to update the second order information
infrequently, and thus do not fully exploit the promise of better convergence
from these updates. By reducing the communication complexity of the
second-order updates as well as achieving a linear communication complexity,
MKOR increases the frequency of second order updates. We also propose a hybrid
version of MKOR (called MKOR-H) that mid-training falls backs to a first order
optimizer if the second order updates no longer accelerate convergence. Our
experiments show that MKOR outperforms state -of-the-art first order methods,
e.g. the LAMB optimizer, and best implementations of second-order methods, i.e.
KAISA/KFAC, up to 2.57x and 1.85x respectively on BERT-Large-Uncased on 64
GPUs.
- Abstract(参考訳): 本研究は,deep neural network (dnn) の学習時間と収束特性を改善するために,rank-1 更新を用いた運動量対応クロネッカー型最適化器を提案する。
2階の手法は、収束率が高い一方、1階の手法はモデルサイズまたは/またはトレーニングバッチサイズに関して3倍の複雑さを持つ。
したがって、大きな言語モデル(LLM)のようなトランスフォーマーモデルでは、これらのモデルにおけるバッチサイズがアテンションメカニズムのシーケンス長によってスケールするため、スケーラビリティとパフォーマンスが劣る。
MKORの複雑性はモデルサイズに対して2次的であり、2階法の計算ボトルネックを軽減する。
計算の複雑さが高いため、第2次メソッドの最先端の実装は、第2次情報を必ずしも更新できないため、これらの更新からよりよい収束の約束を十分に活用できない。
2次更新の通信複雑性を低減し、線形通信複雑性を達成することにより、MKORは2次更新の頻度を増加させる。
また,第2次更新が収束を加速しない場合,MKOR(MKOR-H)のハイブリッド版も提案する。
実験の結果, MKORは, 64個のGPU上でのBERT-Large-Uncased上で, LAMBオプティマイザやKAISA/KFACといった2次メソッドの最適実装において, それぞれ2.57倍, 1.85倍の性能を発揮した。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - A Computationally Efficient Sparsified Online Newton Method [48.78646010774149]
Sparsified Online Newton (SONew) はメモリ効率の良い2次アルゴリズムである。
最大で30%の高速化,3.4%の妥当性向上,80%のトレーニング損失の相対的改善を実現しています。
論文 参考訳(メタデータ) (2023-11-16T18:44:22Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Eva: A General Vectorized Approximation Framework for Second-order
Optimization [16.647611352181574]
メモリ効率と時間効率の2次アルゴリズムであるEvaを2つの新しい手法で提案する。
我々はシャーマン・モリソンの公式を使用する逆計算を明示的に行わずに効率的な更新式を導出する。
実験によると、Evaは1次SGDと2次アルゴリズムと比較して、エンドツーエンドのトレーニング時間を2.05倍と2.42倍に短縮する。
論文 参考訳(メタデータ) (2023-08-04T03:51:38Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - A Novel Fast Exact Subproblem Solver for Stochastic Quasi-Newton Cubic
Regularized Optimization [0.38233569758620045]
本稿では,大規模非制約最適化のための3乗法 (ARC) を用いた適応正規化について述べる。
我々の新しいアプローチであるARCLQNは、最小限のチューニングを伴うモダンと比較される。
論文 参考訳(メタデータ) (2022-04-19T20:25:29Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Gradient Descent on Neurons and its Link to Approximate Second-Order
Optimization [0.913755431537592]
Kronecker-Factored, block-diagonal curvature estimates (KFAC) は真の2次更新よりも有意に優れていることを示す。
また、KFACは重みよりも勾配降下を行う一階勾配アルゴリズムを近似することを示した。
論文 参考訳(メタデータ) (2022-01-28T17:06:26Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z) - Scalable Second Order Optimization for Deep Learning [34.12384996822749]
本稿では,第2次プレコンディショニング手法のスケーラブルな実装について述べる(第2に,完全行列 Adagrad の変種)。
我々の新しい設計は、多コアCPUと複数のアクセラレーションユニットを組み合わせた深層モデルのトレーニングに、一般的な異種ハードウェアアーキテクチャを効果的に活用する。
本稿では,変換器を用いた機械翻訳,BERTによる言語モデリング,Criteoによるクリックスルー率予測,ResNet-50によるImageNetの画像分類など,非常に大規模な学習課題における最先端の学習性能を示す。
論文 参考訳(メタデータ) (2020-02-20T20:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。