論文の概要: mL-BFGS: A Momentum-based L-BFGS for Distributed Large-Scale Neural
Network Optimization
- arxiv url: http://arxiv.org/abs/2307.13744v1
- Date: Tue, 25 Jul 2023 18:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 14:46:58.587096
- Title: mL-BFGS: A Momentum-based L-BFGS for Distributed Large-Scale Neural
Network Optimization
- Title(参考訳): mL-BFGS:分散大規模ニューラルネットワーク最適化のためのモーメントベースL-BFGS
- Authors: Yue Niu, Zalan Fabian, Sunwoo Lee, Mahdi Soltanolkotabi, Salman
Avestimehr
- Abstract要約: 大規模分散ディープニューラルネットワーク(DNN)における準ニュートン法(QN)の道筋を舗装する運動量に基づくL-BFGSアルゴリズムを提案する。
大規模なモデルトレーニングでは、mL-BFGSはブロックワイドのヘシアンを近似し、計算とメモリのコストを全計算に分散させる。
以上の結果から,mL-BFGSはグラデーションワイドとウォールクロックのスピードアップを両立させることがわかった。
- 参考スコア(独自算出の注目度): 35.08820062020787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quasi-Newton methods still face significant challenges in training
large-scale neural networks due to additional compute costs in the Hessian
related computations and instability issues in stochastic training. A
well-known method, L-BFGS that efficiently approximates the Hessian using
history parameter and gradient changes, suffers convergence instability in
stochastic training. So far, attempts that adapt L-BFGS to large-scale
stochastic training incur considerable extra overhead, which offsets its
convergence benefits in wall-clock time. In this paper, we propose mL-BFGS, a
lightweight momentum-based L-BFGS algorithm that paves the way for quasi-Newton
(QN) methods in large-scale distributed deep neural network (DNN) optimization.
mL-BFGS introduces a nearly cost-free momentum scheme into L-BFGS update and
greatly reduces stochastic noise in the Hessian, therefore stabilizing
convergence during stochastic optimization. For model training at a large
scale, mL-BFGS approximates a block-wise Hessian, thus enabling distributing
compute and memory costs across all computing nodes. We provide a supporting
convergence analysis for mL-BFGS in stochastic settings. To investigate mL-BFGS
potential in large-scale DNN training, we train benchmark neural models using
mL-BFGS and compare performance with baselines (SGD, Adam, and other
quasi-Newton methods). Results show that mL-BFGS achieves both noticeable
iteration-wise and wall-clock speedup.
- Abstract(参考訳): 準ニュートン法は、ヘッセン計算の計算コストと確率的トレーニングにおける不安定性の問題により、大規模ニューラルネットワークのトレーニングにおいて依然として重要な課題に直面している。
履歴パラメータと勾配変化を用いてヘッセンを効率的に近似するよく知られたL-BFGSは、確率的トレーニングにおいて収束不安定を被る。
これまでのところ、L-BFGSを大規模確率的訓練に適応させる試みは、その収束効果をウォールクロック時間で相殺するかなりのオーバーヘッドをもたらす。
本稿では、大規模分散ディープニューラルネットワーク(DNN)最適化における準ニュートン法(QN)の道筋を舗装する軽量運動量に基づくL-BFGSアルゴリズムであるmL-BFGSを提案する。
mL-BFGSはL-BFGS更新にほぼ無償の運動量スキームを導入し、ヘッセンの確率ノイズを大幅に低減し、確率最適化時の収束を安定化させる。
大規模なモデルトレーニングでは、mL-BFGSはブロックワイズヘシアンを近似し、計算とメモリのコストを全ての計算ノードに分散させる。
確率的設定におけるmL-BFGSの収束解析を支援する。
大規模DNNトレーニングにおけるmL-BFGSの可能性を調べるため,mL-BFGSを用いてベンチマークニューラルネットワークを訓練し,ベースライン(SGD,Adam,その他の準ニュートン法)と比較した。
その結果,ml-bfgsは反復的および壁時計的スピードアップを達成できた。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Which Optimizer Works Best for Physics-Informed Neural Networks and Kolmogorov-Arnold Networks? [1.8175282137722093]
物理学 アーノルドニューラルネットワーク(PINN)は偏微分方程式(PDE)の計算に革命をもたらした
これらのPINNは、ニューラルネットワークのトレーニングプロセスにPDEをソフト制約として統合する。
論文 参考訳(メタデータ) (2025-01-22T21:19:42Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Variational Linearized Laplace Approximation for Bayesian Deep Learning [11.22428369342346]
変分スパースガウス過程(GP)を用いた線形ラプラス近似(LLA)の近似法を提案する。
本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。
効率のよい最適化が可能で、結果としてトレーニングデータセットのサイズのサブ線形トレーニング時間が短縮される。
論文 参考訳(メタデータ) (2023-02-24T10:32:30Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - An Adaptive Memory Multi-Batch L-BFGS Algorithm for Neural Network
Training [0.951828574518325]
近年,大規模なニューラルネットワークトレーニング問題に対して,BFGSアルゴリズムの限られたメモリバージョンが注目されている。
MB-AMと呼ばれるマルチバッチL-BFGSアルゴリズムを提案し,曲率情報に対する信頼度を徐々に高める。
論文 参考訳(メタデータ) (2020-12-14T11:40:41Z) - Stochastic Damped L-BFGS with Controlled Norm of the Hessian
Approximation [3.0204520109309843]
最大かつ最小の固有近似上の境界の推定を利用して、その品質とコンディショニングのバランスをとる新しい分散減衰L-BFGSを提案します。
我々のVARCHENは、SdLBFGSと呼ばれる新しい減衰L-BFGSアルゴリズムを提案する以前の研究から導かれる。
VARCHEN は DavidNet の修正問題に対して SdLBFGSVR や SVRG よりも堅牢であることを示す。
論文 参考訳(メタデータ) (2020-12-10T16:19:02Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。