論文の概要: Sophia: A Scalable Stochastic Second-order Optimizer for Language Model
Pre-training
- arxiv url: http://arxiv.org/abs/2305.14342v1
- Date: Tue, 23 May 2023 17:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:28:16.969222
- Title: Sophia: A Scalable Stochastic Second-order Optimizer for Language Model
Pre-training
- Title(参考訳): Sophia: 言語モデル事前トレーニングのためのスケーラブルな確率的2次最適化
- Authors: Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma
- Abstract要約: 言語モデル事前学習の膨大なコストを考えると、アルゴリズムの非自明な改善により、トレーニングの時間とコストが大幅に削減される。
アダムとその変種は長年、最先端であり、より洗練された2階目(ヘッセン系)の反復は、しばしばステップ毎のオーバーヘッドを引き起こす。
直交ヘシアンをプレコンディショナーとして利用する単純な2階スケーラブルアルゴリズムであるSophiaを提案する。
- 参考スコア(独自算出の注目度): 88.4754349555134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the massive cost of language model pre-training, a non-trivial
improvement of the optimization algorithm would lead to a material reduction on
the time and cost of training. Adam and its variants have been state-of-the-art
for years, and more sophisticated second-order (Hessian-based) optimizers often
incur too much per-step overhead. In this paper, we propose Sophia,
Second-order Clipped Stochastic Optimization, a simple scalable second-order
optimizer that uses a light-weight estimate of the diagonal Hessian as the
pre-conditioner. The update is the moving average of the gradients divided by
the moving average of the estimated Hessian, followed by element-wise clipping.
The clipping controls the worst-case update size and tames the negative impact
of non-convexity and rapid change of Hessian along the trajectory. Sophia only
estimates the diagonal Hessian every handful of iterations, which has
negligible average per-step time and memory overhead. On language modeling with
GPT-2 models of sizes ranging from 125M to 770M, Sophia achieves a 2x speed-up
compared with Adam in the number of steps, total compute, and wall-clock time.
Theoretically, we show that Sophia adapts to the curvature in different
components of the parameters, which can be highly heterogeneous for language
modeling tasks. Our run-time bound does not depend on the condition number of
the loss.
- Abstract(参考訳): 言語モデルの事前学習の膨大なコストを考えると、最適化アルゴリズムの非自明な改善は、トレーニングの時間とコストの物質的削減につながるだろう。
アダムとその変種は長年最先端であり、より洗練された第2次最適化(ヘシアンベース)はしばしばステップ毎のオーバーヘッドを負う。
本稿では,対角ヘッシアンの軽量推定を前提条件として用いた,スケーラブルな2次最適化手法であるソフィアを提案する。
この更新は、推定されたヘッセンの移動平均で分割された勾配の移動平均であり、次いで要素ワイドクリッピングである。
クリップは最悪のケースの更新サイズを制御し、非凸性の悪影響と軌道に沿ったヘッセンの急速な変化を和らげる。
sophiaは一握りのイテレーションで対角ヘッシアンを見積もるだけで、ステップ毎の平均時間とメモリオーバーヘッドは無視できる。
125Mから770MまでのGPT-2モデルを用いた言語モデリングでは,ステップ数,総計算量,ウォールクロック時間の2倍の高速化を実現している。
理論的には、ソフィアはパラメータの異なる成分の曲率に適応し、言語モデリングタスクには非常に不均一であることを示す。
実行時のバウンドは、損失の条件番号に依存しません。
関連論文リスト
- Eva: A General Vectorized Approximation Framework for Second-order
Optimization [16.647611352181574]
メモリ効率と時間効率の2次アルゴリズムであるEvaを2つの新しい手法で提案する。
我々はシャーマン・モリソンの公式を使用する逆計算を明示的に行わずに効率的な更新式を導出する。
実験によると、Evaは1次SGDと2次アルゴリズムと比較して、エンドツーエンドのトレーニング時間を2.05倍と2.42倍に短縮する。
論文 参考訳(メタデータ) (2023-08-04T03:51:38Z) - Do Differentiable Simulators Give Better Policy Gradients? [62.54538644503705]
剛性や不連続性などの物理系の特性が一階推定器の有効性を損なう可能性があることを示す。
さらに、[01]$に$alphaを持つ$alpha$-order gradient estimatorを提案し、これは正確な勾配を正しく利用し、一階推定の効率とゼロ階法の堅牢性を組み合わせる。
論文 参考訳(メタデータ) (2022-02-02T00:12:28Z) - Comparing Classes of Estimators: When does Gradient Descent Beat Ridge
Regression in Linear Models? [46.01087792062936]
クラス内のEmphbestメソッドの相対的性能による推定器のクラスの比較を行う。
これにより、学習アルゴリズムのチューニング感度を厳格に定量化できます。
論文 参考訳(メタデータ) (2021-08-26T16:01:37Z) - L2M: Practical posterior Laplace approximation with optimization-driven
second moment estimation [0.0]
ディープニューラルネットワークの不確かさの定量化は、最近多くの技術を通して進化してきた。
いくつかの規則性条件下では、勾配第二モーメントを用いてラプラス近似を簡単に構築できることが示される。
論文 参考訳(メタデータ) (2021-07-09T22:14:54Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。