Fugu-MT 論文翻訳(概要): SOFIM: Stochastic Optimization Using Regularized Fisher Information Matrix

論文の概要: SOFIM: Stochastic Optimization Using Regularized Fisher Information Matrix

arxiv url: http://arxiv.org/abs/2403.02833v1
Date: Tue, 5 Mar 2024 10:09:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 15:20:09.817100
Title: SOFIM: Stochastic Optimization Using Regularized Fisher Information Matrix
Title（参考訳）: SOFIM:正規化漁業情報行列を用いた確率最適化
Authors: Gayathri C, Mrinmay Sen, A. K. Qin, Raghu Kishore N, Yen-Wei Chen, Balasubramanian Raman
Abstract要約: 本稿では、正規化フィッシャー情報行列(FIM)に基づく新しい最適化手法を提案する。大規模な機械学習モデルにおいて、FIMを効率的に利用して、ニュートンの勾配更新を見つけるためにヘッセン行列を近似することができる。
参考スコア（独自算出の注目度）: 11.160563988901764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a new stochastic optimization method based on the regularized Fisher information matrix (FIM), named SOFIM, which can efficiently utilize the FIM to approximate the Hessian matrix for finding Newton's gradient update in large-scale stochastic optimization of machine learning models. It can be viewed as a variant of natural gradient descent (NGD), where the challenge of storing and calculating the full FIM is addressed through making use of the regularized FIM and directly finding the gradient update direction via Sherman-Morrison matrix inversion. Additionally, like the popular Adam method, SOFIM uses the first moment of the gradient to address the issue of non-stationary objectives across mini-batches due to heterogeneous data. The utilization of the regularized FIM and Sherman-Morrison matrix inversion leads to the improved convergence rate with the same space and time complexities as stochastic gradient descent (SGD) with momentum. The extensive experiments on training deep learning models on several benchmark image classification datasets demonstrate that the proposed SOFIM outperforms SGD with momentum and several state-of-the-art Newton optimization methods, such as Nystrom-SGD, L-BFGS, and AdaHessian, in term of the convergence speed for achieving the pre-specified objectives of training and test losses as well as test accuracy.
Abstract（参考訳）: 本稿では,正規化フィッシャー情報行列(FIM)をベースとした新しい確率的最適化手法であるSOFIMを提案する。自然勾配降下(NGD)の変種と見なすことができ、正規化FIMを用いて全FIMの保存と計算の難しさに対処し、シャーマン・モリソン行列の逆変換により勾配更新方向を直接見つける。さらに、一般的なAdam法と同様に、SOFIMは勾配の最初の瞬間を利用して、異種データによるミニバッチ間の非定常目的の問題に対処する。正規化FIMとシャーマン・モリソン行列の逆変換の利用により、運動量を持つ確率勾配勾配(SGD)と同じ空間と時間的複雑さで収束率が向上する。いくつかのベンチマーク画像分類データセット上でのディープラーニングモデルのトレーニング実験により、提案したSOFIMは、トレーニングとテスト損失の所定の目的を達成するための収束速度とテスト精度の両面から、運動量でSGDより優れており、Nystrom-SGD、L-BFGS、AdaHessianといった最先端のニュートン最適化手法よりも優れていることが示された。

関連論文リスト

Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文参考訳（メタデータ） (2023-06-05T21:08:34Z)
Rigorous dynamical mean field theory for stochastic gradient descent methods [17.90683687731009]
一階勾配法の一家系の正確な高次元に対する閉形式方程式を証明した。これには勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。
論文参考訳（メタデータ） (2022-10-12T21:10:55Z)
Why Approximate Matrix Square Root Outperforms Accurate SVD in Global Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-05-06T08:03:45Z)
Research of Damped Newton Stochastic Gradient Descent Method for Neural Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文参考訳（メタデータ） (2021-03-31T02:07:18Z)
Exploiting Adam-like Optimization Algorithms to Improve the Performance of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。 resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文参考訳（メタデータ） (2021-03-26T18:55:08Z)
An adaptive Hessian approximated stochastic gradient MCMC method [12.93317525451798]
後方からのサンプリング中に局所的幾何情報を組み込む適応型ヘッセン近似勾配MCMC法を提案する。我々は,ネットワークの空間性を高めるために,等級に基づく重み付け法を採用する。
論文参考訳（メタデータ） (2020-10-03T16:22:15Z)
Stochastic Gradient Langevin Dynamics Algorithms with Adaptive Drifts [8.36840154574354]
そこで我々は, ドリフト関数を偏り, サドル点からの脱出を促進させ, バイアスを過去のサンプルの勾配に応じて適応的に調整する, 適応的勾配勾配連鎖モンテカルロ(SGMCMC)アルゴリズムを提案する。本稿では,提案アルゴリズムが既存のSGMCMCアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2020-09-20T22:03:39Z)
Bayesian Sparse learning with preconditioned stochastic gradient MCMC and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文参考訳（メタデータ） (2020-06-29T20:57:20Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Improving Sampling Accuracy of Stochastic Gradient MCMC Methods via Non-uniform Subsampling of Gradients [54.90670513852325]
サンプリング精度を向上させるための一様でないサブサンプリング手法を提案する。 EWSGは、一様勾配MCMC法がバッチ勾配MCMC法の統計的挙動を模倣するように設計されている。 EWSGの実践的な実装では、データインデックス上のMetropolis-Hastingsチェーンを介して、一様でないサブサンプリングを効率的に行う。
論文参考訳（メタデータ） (2020-02-20T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。