Fugu-MT 論文翻訳(概要): Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training

論文の概要: Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training

arxiv url: http://arxiv.org/abs/2305.14342v1
Date: Tue, 23 May 2023 17:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 13:28:16.969222
Title: Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training
Title（参考訳）: Sophia: 言語モデル事前トレーニングのためのスケーラブルな確率的2次最適化
Authors: Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma
Abstract要約: 言語モデル事前学習の膨大なコストを考えると、アルゴリズムの非自明な改善により、トレーニングの時間とコストが大幅に削減される。アダムとその変種は長年、最先端であり、より洗練された2階目(ヘッセン系)の反復は、しばしばステップ毎のオーバーヘッドを引き起こす。直交ヘシアンをプレコンディショナーとして利用する単純な2階スケーラブルアルゴリズムであるSophiaを提案する。
参考スコア（独自算出の注目度）: 88.4754349555134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given the massive cost of language model pre-training, a non-trivial improvement of the optimization algorithm would lead to a material reduction on the time and cost of training. Adam and its variants have been state-of-the-art for years, and more sophisticated second-order (Hessian-based) optimizers often incur too much per-step overhead. In this paper, we propose Sophia, Second-order Clipped Stochastic Optimization, a simple scalable second-order optimizer that uses a light-weight estimate of the diagonal Hessian as the pre-conditioner. The update is the moving average of the gradients divided by the moving average of the estimated Hessian, followed by element-wise clipping. The clipping controls the worst-case update size and tames the negative impact of non-convexity and rapid change of Hessian along the trajectory. Sophia only estimates the diagonal Hessian every handful of iterations, which has negligible average per-step time and memory overhead. On language modeling with GPT-2 models of sizes ranging from 125M to 770M, Sophia achieves a 2x speed-up compared with Adam in the number of steps, total compute, and wall-clock time. Theoretically, we show that Sophia adapts to the curvature in different components of the parameters, which can be highly heterogeneous for language modeling tasks. Our run-time bound does not depend on the condition number of the loss.
Abstract（参考訳）: 言語モデルの事前学習の膨大なコストを考えると、最適化アルゴリズムの非自明な改善は、トレーニングの時間とコストの物質的削減につながるだろう。アダムとその変種は長年最先端であり、より洗練された第2次最適化(ヘシアンベース)はしばしばステップ毎のオーバーヘッドを負う。本稿では,対角ヘッシアンの軽量推定を前提条件として用いた,スケーラブルな2次最適化手法であるソフィアを提案する。この更新は、推定されたヘッセンの移動平均で分割された勾配の移動平均であり、次いで要素ワイドクリッピングである。クリップは最悪のケースの更新サイズを制御し、非凸性の悪影響と軌道に沿ったヘッセンの急速な変化を和らげる。 sophiaは一握りのイテレーションで対角ヘッシアンを見積もるだけで、ステップ毎の平均時間とメモリオーバーヘッドは無視できる。 125Mから770MまでのGPT-2モデルを用いた言語モデリングでは,ステップ数,総計算量,ウォールクロック時間の2倍の高速化を実現している。理論的には、ソフィアはパラメータの異なる成分の曲率に適応し、言語モデリングタスクには非常に不均一であることを示す。実行時のバウンドは、損失の条件番号に依存しません。

関連論文リスト

Towards Practical Second-Order Optimizers in Deep Learning: Insights from Fisher Information Analysis [0.0]
本稿では、ディープニューラルネットワーク(DNN)のための新しい適応2階チューニングであるAdaFisherを紹介する。 AdaFisherは、改良された収束と2階法の一般化と、訓練に必要な計算効率とのギャップを埋めることを目的としている。我々はAdaFisherが精度と収束速度の両方で最先端の近似より優れていることを示す。
論文参考訳（メタデータ） (2025-04-26T05:02:21Z)
Non-Expansive Mappings in Two-Time-Scale Stochastic Approximation: Finite-Time Analysis [0.0]
より遅い時間スケールが拡張性のないマッピングを持つ2段階のイテレーションについて検討する。平均二乗誤差は$O (1/k1/4-epsilon)$で減衰し、$epsilon>0$は任意に小さくなる。
論文参考訳（メタデータ） (2025-01-18T16:00:14Z)
AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
第一次最適化法は、現在、深層ニューラルネットワーク(DNN)のトレーニングにおいて主流となっている。Adamのような企業は、トレーニング中に勾配の行列プレコンディショニングを利用することで、限られた曲率情報を取り入れている。広範に使われている2階最適化アルゴリズムは、AdamやSGDのような一階最適化アルゴリズムよりも優れた収束特性を示す。本稿では,適応勾配プレコンディショニングのためのフィッシャー情報行列の角角ブロッククロネッカー近似を利用する適応二階法であるEmphAdaFisherを提案する。
論文参考訳（メタデータ） (2024-05-26T01:25:02Z)
Eva: A General Vectorized Approximation Framework for Second-order Optimization [16.647611352181574]
メモリ効率と時間効率の2次アルゴリズムであるEvaを2つの新しい手法で提案する。我々はシャーマン・モリソンの公式を使用する逆計算を明示的に行わずに効率的な更新式を導出する。実験によると、Evaは1次SGDと2次アルゴリズムと比較して、エンドツーエンドのトレーニング時間を2.05倍と2.42倍に短縮する。
論文参考訳（メタデータ） (2023-08-04T03:51:38Z)
Do Differentiable Simulators Give Better Policy Gradients? [62.54538644503705]
剛性や不連続性などの物理系の特性が一階推定器の有効性を損なう可能性があることを示す。さらに、[01]$に$alphaを持つ$alpha$-order gradient estimatorを提案し、これは正確な勾配を正しく利用し、一階推定の効率とゼロ階法の堅牢性を組み合わせる。
論文参考訳（メタデータ） (2022-02-02T00:12:28Z)
Comparing Classes of Estimators: When does Gradient Descent Beat Ridge Regression in Linear Models? [46.01087792062936]
クラス内のEmphbestメソッドの相対的性能による推定器のクラスの比較を行う。これにより、学習アルゴリズムのチューニング感度を厳格に定量化できます。
論文参考訳（メタデータ） (2021-08-26T16:01:37Z)
L2M: Practical posterior Laplace approximation with optimization-driven second moment estimation [0.0]
ディープニューラルネットワークの不確かさの定量化は、最近多くの技術を通して進化してきた。いくつかの規則性条件下では、勾配第二モーメントを用いてラプラス近似を簡単に構築できることが示される。
論文参考訳（メタデータ） (2021-07-09T22:14:54Z)
Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文参考訳（メタデータ） (2021-03-04T19:01:20Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。