Fugu-MT 論文翻訳(概要): AdaFisher: Adaptive Second Order Optimization via Fisher Information

論文の概要: AdaFisher: Adaptive Second Order Optimization via Fisher Information

arxiv url: http://arxiv.org/abs/2405.16397v1
Date: Sun, 26 May 2024 01:25:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 21:28:05.112247
Title: AdaFisher: Adaptive Second Order Optimization via Fisher Information
Title（参考訳）: AdaFisher: 漁業情報による適応的な二階最適化
Authors: Damien Martins Gomes, Yanlei Zhang, Eugene Belilovsky, Guy Wolf, Mahdi S. Hosseini,
Abstract要約: 本稿では,適応型プレコンディショニング勾配のためのフィッシャー情報行列に対して,ブロック対角近似を利用する適応型2次のAdaFisherを提案する。 AdaFisher は精度と収束速度の両方において SOTA よりも優れていることを示す。
参考スコア（独自算出の注目度）: 22.851200800265914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: First-order optimization methods are currently the mainstream in training deep neural networks (DNNs). Optimizers like Adam incorporate limited curvature information by employing the diagonal matrix preconditioning of the stochastic gradient during the training. Despite their widespread, second-order optimization algorithms exhibit superior convergence properties compared to their first-order counterparts e.g. Adam and SGD. However, their practicality in training DNNs are still limited due to increased per-iteration computations and suboptimal accuracy compared to the first order methods. We present AdaFisher--an adaptive second-order optimizer that leverages a block-diagonal approximation to the Fisher information matrix for adaptive gradient preconditioning. AdaFisher aims to bridge the gap between enhanced convergence capabilities and computational efficiency in second-order optimization framework for training DNNs. Despite the slow pace of second-order optimizers, we showcase that AdaFisher can be reliably adopted for image classification, language modelling and stand out for its stability and robustness in hyperparameter tuning. We demonstrate that AdaFisher outperforms the SOTA optimizers in terms of both accuracy and convergence speed. Code available from \href{https://github.com/AtlasAnalyticsLab/AdaFisher}{https://github.com/AtlasAnalyticsLab/AdaFisher}
Abstract（参考訳）: 現在、一階最適化手法はディープニューラルネットワーク(DNN)のトレーニングにおいて主流となっている。アダムのようなオプティマイザは、トレーニング中に確率勾配の対角行列プレコンディショニングを用いることで、限られた曲率情報を取り入れる。広範に使われている2階最適化アルゴリズムは、AdamやSGDのような一階最適化アルゴリズムよりも優れた収束特性を示す。しかし、DNNの訓練における実用性は、第1次方法と比較して、解法ごとの計算量の増加と最適下限の精度の増大により、依然として制限されている。本稿では,適応勾配プリコンディショニングのためのフィッシャー情報行列にブロック対角近似を利用する適応二階最適化器AdaFisherを提案する。 AdaFisherは、DNNのトレーニングのための2階最適化フレームワークにおいて、収束能力の向上と計算効率のギャップを埋めることを目的としている。 2次オプティマイザの速度は遅いが、AdaFisherは画像分類、言語モデリングに確実に適用でき、ハイパーパラメータチューニングの安定性と堅牢性に際し際立つ。 AdaFisherは精度と収束速度の両方でSOTAオプティマイザより優れていることを示す。コード: \href{https://github.com/AtlasAnalyticsLab/AdaFisher}{https://github.com/AtlasAnalyticsLab/AdaFisher}

関連論文リスト

Towards Practical Second-Order Optimizers in Deep Learning: Insights from Fisher Information Analysis [0.0]
本稿では、ディープニューラルネットワーク(DNN)のための新しい適応2階チューニングであるAdaFisherを紹介する。 AdaFisherは、改良された収束と2階法の一般化と、訓練に必要な計算効率とのギャップを埋めることを目的としている。我々はAdaFisherが精度と収束速度の両方で最先端の近似より優れていることを示す。
論文参考訳（メタデータ） (2025-04-26T05:02:21Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:13Z)
Efficient Second-Order Neural Network Optimization via Adaptive Trust Region Methods [0.0]
SecondOrderAdaptive (SOAA) は、従来の二階法の限界を克服するために設計された新しい最適化アルゴリズムである。私たちは、SOAAが1次近似よりも速く、より安定した収束を達成することを実証的に実証します。
論文参考訳（メタデータ） (2024-10-03T08:23:06Z)
SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文参考訳（メタデータ） (2024-03-05T06:10:21Z)
Information-Theoretic Trust Regions for Stochastic Gradient-Based Optimization [17.79206971486723]
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。我々は、勾配からヘッセンの対角要素を近似し、1次情報のみを用いて予測されたヘッセンのモデルを構築する。 arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
論文参考訳（メタデータ） (2023-10-31T16:08:38Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
Eva: A General Vectorized Approximation Framework for Second-order Optimization [16.647611352181574]
メモリ効率と時間効率の2次アルゴリズムであるEvaを2つの新しい手法で提案する。我々はシャーマン・モリソンの公式を使用する逆計算を明示的に行わずに効率的な更新式を導出する。実験によると、Evaは1次SGDと2次アルゴリズムと比較して、エンドツーエンドのトレーニング時間を2.05倍と2.42倍に短縮する。
論文参考訳（メタデータ） (2023-08-04T03:51:38Z)
Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文参考訳（メタデータ） (2023-07-02T18:16:06Z)
A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文参考訳（メタデータ） (2022-11-16T00:11:04Z)
Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文参考訳（メタデータ） (2022-10-11T03:47:14Z)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文参考訳（メタデータ） (2022-08-13T16:04:39Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。その結果, 直接使用法と比較して計算時間を2～5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文参考訳（メタデータ） (2020-02-04T20:00:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。