Fugu-MT 論文翻訳(概要): Inverse-Free Fast Natural Gradient Descent Method for Deep Learning

論文の概要: Inverse-Free Fast Natural Gradient Descent Method for Deep Learning

arxiv url: http://arxiv.org/abs/2403.03473v1
Date: Wed, 6 Mar 2024 05:13:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 16:05:11.292462
Title: Inverse-Free Fast Natural Gradient Descent Method for Deep Learning
Title（参考訳）: 深層学習のための逆フリー高速自然勾配法
Authors: Xinwei Ou, Ce Zhu, Xiaolin Huang, and Yipeng Liu
Abstract要約: 本稿では,FNGD法とFNGD法について述べる。 FNGDは、自然勾配降下を、一階法の平均和に類似した固定係数重み付き和として近似する。
参考スコア（独自算出の注目度）: 52.0693420699086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Second-order methods can converge much faster than first-order methods by incorporating second-order derivates or statistics, but they are far less prevalent in deep learning due to their computational inefficiency. To handle this, many of the existing solutions focus on reducing the size of the matrix to be inverted. However, it is still needed to perform the inverse operator in each iteration. In this paper, we present a fast natural gradient descent (FNGD) method, which only requires computing the inverse during the first epoch. Firstly, we reformulate the gradient preconditioning formula in the natural gradient descent (NGD) as a weighted sum of per-sample gradients using the Sherman-Morrison-Woodbury formula. Building upon this, to avoid the iterative inverse operation involved in computing coefficients, the weighted coefficients are shared across epochs without affecting the empirical performance. FNGD approximates the NGD as a fixed-coefficient weighted sum, akin to the average sum in first-order methods. Consequently, the computational complexity of FNGD can approach that of first-order methods. To demonstrate the efficiency of the proposed FNGD, we perform empirical evaluations on image classification and machine translation tasks. For training ResNet-18 on the CIFAR-100 dataset, FNGD can achieve a speedup of 2.05$\times$ compared with KFAC. For training Transformer on Multi30K, FNGD outperforms AdamW by 24 BLEU score while requiring almost the same training time.
Abstract（参考訳）: 二階法は二階微分法や統計学を取り入れた一階法よりもはるかに高速に収束できるが、計算不効率のため深層学習ではあまり普及しない。これを扱うために、既存のソリューションの多くは、逆行列のサイズを減らすことに重点を置いている。しかし、各イテレーションで逆演算子を実行する必要がある。本稿では,最初の時代における逆計算のみを必要とする高速自然勾配降下法(fngd)を提案する。まず,自然勾配降下(NGD)の勾配前条件式をシャーマン・モリソン・ウードベリー式を用いて,サンプルごとの勾配の重み付け和として再構成する。これに基づいて計算係数の反復的逆演算を避けるため、重み付き係数は経験的性能に影響を与えることなくエポック間で共有される。 FNGDは、NGDを固定係数重み付け和として近似し、一階法の平均和と似ている。したがって、fngdの計算複雑性は一階法に近づくことができる。提案するFNGDの効率性を示すため,画像分類と機械翻訳タスクの実証評価を行った。 CIFAR-100データセット上でResNet-18をトレーニングするために、FNGDはKFACと比較して2.05$\times$のスピードアップを達成できる。 Multi30Kでのトランスフォーマーのトレーニングでは、FNGDはAdamWを24 BLEUスコアで上回り、ほぼ同じトレーニング時間を必要とする。

関連論文リスト

Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW [2.028622227373579]
勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
論文参考訳（メタデータ） (2025-07-01T23:30:15Z)
Enhanced Derivative-Free Optimization Using Adaptive Correlation-Induced Finite Difference Estimators [6.054123928890574]
勾配推定効率とサンプル効率の両面からDFOを向上させるアルゴリズムを開発した。提案アルゴリズムの整合性を確立し,反復毎にサンプルのバッチを用いても,KW法やSPSA法と同じ収束率が得られることを示した。
論文参考訳（メタデータ） (2025-02-28T08:05:54Z)
Derivative-Free Optimization via Finite Difference Approximation: An Experimental Study [1.3886390523644807]
微分自由最適化(DFO)は、関数評価のみをオラクルで利用できるような複雑な最適化問題の解決に不可欠である。 2つの古典的なイテレーションアプローチは、Kiefer-Wolfowitz (KW) と同時摂動近似 (SPSA) アルゴリズムである。本稿では,これらの手法の総合的な比較実験を行う。
論文参考訳（メタデータ） (2024-10-31T18:07:44Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文参考訳（メタデータ） (2023-05-23T04:12:55Z)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [158.19276683455254]
アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。 Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
論文参考訳（メタデータ） (2022-08-13T16:04:39Z)
Momentum-Based Policy Gradient with Second-Order Information [40.51117836892182]
本稿では,2次情報を勾配降下に組み込んだSHARP法を提案する。従来の研究と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリングを必要としない。提案手法が様々な制御課題に対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
論文参考訳（メタデータ） (2022-05-17T11:56:50Z)
Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文参考訳（メタデータ） (2021-07-01T16:36:39Z)
Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文参考訳（メタデータ） (2020-06-12T09:39:47Z)
Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。 SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文参考訳（メタデータ） (2020-04-20T02:40:43Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。