論文の概要: SOFIM: Stochastic Optimization Using Regularized Fisher Information
Matrix
- arxiv url: http://arxiv.org/abs/2403.02833v1
- Date: Tue, 5 Mar 2024 10:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:20:09.817100
- Title: SOFIM: Stochastic Optimization Using Regularized Fisher Information
Matrix
- Title(参考訳): SOFIM:正規化漁業情報行列を用いた確率最適化
- Authors: Gayathri C, Mrinmay Sen, A. K. Qin, Raghu Kishore N, Yen-Wei Chen,
Balasubramanian Raman
- Abstract要約: 本稿では、正規化フィッシャー情報行列(FIM)に基づく新しい最適化手法を提案する。
大規模な機械学習モデルにおいて、FIMを効率的に利用して、ニュートンの勾配更新を見つけるためにヘッセン行列を近似することができる。
- 参考スコア(独自算出の注目度): 11.160563988901764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a new stochastic optimization method based on the
regularized Fisher information matrix (FIM), named SOFIM, which can efficiently
utilize the FIM to approximate the Hessian matrix for finding Newton's gradient
update in large-scale stochastic optimization of machine learning models. It
can be viewed as a variant of natural gradient descent (NGD), where the
challenge of storing and calculating the full FIM is addressed through making
use of the regularized FIM and directly finding the gradient update direction
via Sherman-Morrison matrix inversion. Additionally, like the popular Adam
method, SOFIM uses the first moment of the gradient to address the issue of
non-stationary objectives across mini-batches due to heterogeneous data. The
utilization of the regularized FIM and Sherman-Morrison matrix inversion leads
to the improved convergence rate with the same space and time complexities as
stochastic gradient descent (SGD) with momentum. The extensive experiments on
training deep learning models on several benchmark image classification
datasets demonstrate that the proposed SOFIM outperforms SGD with momentum and
several state-of-the-art Newton optimization methods, such as Nystrom-SGD,
L-BFGS, and AdaHessian, in term of the convergence speed for achieving the
pre-specified objectives of training and test losses as well as test accuracy.
- Abstract(参考訳): 本稿では,正規化フィッシャー情報行列(FIM)をベースとした新しい確率的最適化手法であるSOFIMを提案する。
自然勾配降下(NGD)の変種と見なすことができ、正規化FIMを用いて全FIMの保存と計算の難しさに対処し、シャーマン・モリソン行列の逆変換により勾配更新方向を直接見つける。
さらに、一般的なAdam法と同様に、SOFIMは勾配の最初の瞬間を利用して、異種データによるミニバッチ間の非定常目的の問題に対処する。
正規化FIMとシャーマン・モリソン行列の逆変換の利用により、運動量を持つ確率勾配勾配(SGD)と同じ空間と時間的複雑さで収束率が向上する。
いくつかのベンチマーク画像分類データセット上でのディープラーニングモデルのトレーニング実験により、提案したSOFIMは、トレーニングとテスト損失の所定の目的を達成するための収束速度とテスト精度の両面から、運動量でSGDより優れており、Nystrom-SGD、L-BFGS、AdaHessianといった最先端のニュートン最適化手法よりも優れていることが示された。
関連論文リスト
- Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field
and Online Inference [50.91823345296243]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Rigorous dynamical mean field theory for stochastic gradient descent
methods [17.90683687731009]
一階勾配法の一家系の正確な高次元に対する閉形式方程式を証明した。
これには勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。
論文 参考訳(メタデータ) (2022-10-12T21:10:55Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文 参考訳(メタデータ) (2021-03-31T02:07:18Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - An adaptive Hessian approximated stochastic gradient MCMC method [12.93317525451798]
後方からのサンプリング中に局所的幾何情報を組み込む適応型ヘッセン近似勾配MCMC法を提案する。
我々は,ネットワークの空間性を高めるために,等級に基づく重み付け法を採用する。
論文 参考訳(メタデータ) (2020-10-03T16:22:15Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Improving Sampling Accuracy of Stochastic Gradient MCMC Methods via
Non-uniform Subsampling of Gradients [54.90670513852325]
サンプリング精度を向上させるための一様でないサブサンプリング手法を提案する。
EWSGは、一様勾配MCMC法がバッチ勾配MCMC法の統計的挙動を模倣するように設計されている。
EWSGの実践的な実装では、データインデックス上のMetropolis-Hastingsチェーンを介して、一様でないサブサンプリングを効率的に行う。
論文 参考訳(メタデータ) (2020-02-20T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。