論文の概要: Towards Practical Second-Order Optimizers in Deep Learning: Insights from Fisher Information Analysis
- arxiv url: http://arxiv.org/abs/2504.20096v1
- Date: Sat, 26 Apr 2025 05:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.582791
- Title: Towards Practical Second-Order Optimizers in Deep Learning: Insights from Fisher Information Analysis
- Title(参考訳): 深層学習における2次最適化の実現に向けて:漁業情報分析から
- Authors: Damien Martins Gomes,
- Abstract要約: 本稿では、ディープニューラルネットワーク(DNN)のための新しい適応2階チューニングであるAdaFisherを紹介する。
AdaFisherは、改良された収束と2階法の一般化と、訓練に必要な計算効率とのギャップを埋めることを目的としている。
我々はAdaFisherが精度と収束速度の両方で最先端の近似より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: First-order optimization methods remain the standard for training deep neural networks (DNNs). Optimizers like Adam incorporate limited curvature information by preconditioning the stochastic gradient with a diagonal matrix. Despite the widespread adoption of first-order methods, second-order optimization algorithms often exhibit superior convergence compared to methods like Adam and SGD. However, their practicality in training DNNs is still limited by a significantly higher per-iteration computational cost compared to first-order methods. In this thesis, we present AdaFisher, a novel adaptive second-order optimizer that leverages a diagonal block-Kronecker approximation of the Fisher information matrix to adaptively precondition gradients. AdaFisher aims to bridge the gap between the improved convergence and generalization of second-order methods and the computational efficiency needed for training DNNs. Despite the traditionally slower speed of second-order optimizers, AdaFisher is effective for tasks such as image classification and language modeling, exhibiting remarkable stability and robustness during hyperparameter tuning. We demonstrate that AdaFisher outperforms state-of-the-art optimizers in both accuracy and convergence speed. The code is available from https://github.com/AtlasAnalyticsLab/AdaFisher.
- Abstract(参考訳): 1次最適化手法は、ディープニューラルネットワーク(DNN)のトレーニングの標準のままである。
アダムのようなオプティマイザは、対角行列で確率勾配をプレコンディションすることで、限られた曲率情報を組み込む。
一階法が広く採用されているにもかかわらず、二階最適化アルゴリズムはアダム法やSGD法よりも優れた収束性を示すことが多い。
しかし、DNNの訓練における実用性は、一階法に比べて計算コストが大幅に高いため、依然として制限されている。
本稿では,フィッシャー情報行列の対角ブロック・クローネッカー近似を適応的プレコンディション勾配に利用した新しい適応二階最適化器であるAdaFisherを提案する。
AdaFisherは、改良された収束と二階法の一般化とDNNの訓練に必要な計算効率のギャップを埋めることを目的としている。
伝統的に2階最適化の速度が遅いにもかかわらず、AdaFisherは画像分類や言語モデリングなどのタスクに有効であり、ハイパーパラメータチューニング時に顕著な安定性と堅牢性を示す。
我々はAdaFisherが精度と収束速度の両方で最先端の最適化器より優れていることを示す。
コードはhttps://github.com/AtlasAnalyticsLab/AdaFisherから入手できる。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Efficient Second-Order Neural Network Optimization via Adaptive Trust Region Methods [0.0]
SecondOrderAdaptive (SOAA) は、従来の二階法の限界を克服するために設計された新しい最適化アルゴリズムである。
私たちは、SOAAが1次近似よりも速く、より安定した収束を達成することを実証的に実証します。
論文 参考訳(メタデータ) (2024-10-03T08:23:06Z) - AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
第一次最適化法は、現在、深層ニューラルネットワーク(DNN)のトレーニングにおいて主流となっている。Adamのような企業は、トレーニング中に勾配の行列プレコンディショニングを利用することで、限られた曲率情報を取り入れている。
広範に使われている2階最適化アルゴリズムは、AdamやSGDのような一階最適化アルゴリズムよりも優れた収束特性を示す。
本稿では,適応勾配プレコンディショニングのためのフィッシャー情報行列の角角ブロッククロネッカー近似を利用する適応二階法であるEmphAdaFisherを提案する。
論文 参考訳(メタデータ) (2024-05-26T01:25:02Z) - SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。
本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z) - Scalable Second Order Optimization for Deep Learning [34.12384996822749]
本稿では,第2次プレコンディショニング手法のスケーラブルな実装について述べる(第2に,完全行列 Adagrad の変種)。
我々の新しい設計は、多コアCPUと複数のアクセラレーションユニットを組み合わせた深層モデルのトレーニングに、一般的な異種ハードウェアアーキテクチャを効果的に活用する。
本稿では,変換器を用いた機械翻訳,BERTによる言語モデリング,Criteoによるクリックスルー率予測,ResNet-50によるImageNetの画像分類など,非常に大規模な学習課題における最先端の学習性能を示す。
論文 参考訳(メタデータ) (2020-02-20T20:51:33Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。