Fugu-MT 論文翻訳(概要): A second-order-like optimizer with adaptive gradient scaling for deep learning

論文の概要: A second-order-like optimizer with adaptive gradient scaling for deep learning

arxiv url: http://arxiv.org/abs/2410.05871v1
Date: Tue, 8 Oct 2024 09:58:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 12:30:00.603239
Title: A second-order-like optimizer with adaptive gradient scaling for deep learning
Title（参考訳）: 適応的勾配スケーリングを用いた深層学習用2次最適化器
Authors: Jérôme Bolte, Ryan Boustany, Edouard Pauwels, Andrei Purica,
Abstract要約: INNApropは、INNA法とRMSprop適応勾配スケーリングを組み合わせた最適化アルゴリズムである。画像分類 (CIFAR-10, ImageNet) と言語モデリング (GPT-2) について、INNAprop はAdamW のトレーニング速度と精度を一貫して比較または比較している。
参考スコア（独自算出の注目度）: 13.174512123890016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this empirical article, we introduce INNAprop, an optimization algorithm that combines the INNA method with the RMSprop adaptive gradient scaling. It leverages second-order information and rescaling while keeping the memory requirements of standard DL methods as AdamW or SGD with momentum.After having recalled our geometrical motivations, we provide quite extensive experiments. On image classification (CIFAR-10, ImageNet) and language modeling (GPT-2), INNAprop consistently matches or outperforms AdamW both in training speed and accuracy, with minimal hyperparameter tuning in large-scale settings. Our code is publicly available at \url{https://github.com/innaprop/innaprop}.
Abstract（参考訳）: 本稿では,INNA法とRMSprop適応勾配スケーリングを組み合わせた最適化アルゴリズムINNApropを紹介する。標準的なDLメソッドのメモリ要件をAdamWやSGDのように運動量で保ちながら、二階情報を活用し、再スケーリングする。画像分類 (CIFAR-10, ImageNet) と言語モデリング (GPT-2) では、INNAprop はAdamW のトレーニング速度と精度の両面で、大規模な設定では最小限のハイパーパラメータチューニングで一貫して一致または性能に優れる。私たちのコードは \url{https://github.com/innaprop/innaprop} で公開されています。

関連論文リスト

Impact of Hyperparameter Optimization on the Accuracy of Lightweight Deep Learning Models for Real-Time Image Classification [0.0]
本研究では、7つの効率的なディープラーニングアーキテクチャの精度と収束挙動に及ぼすハイパーパラメータ調整の影響を解析する。すべてのモデルは、一貫したトレーニング設定の下でImageNet-1Kデータセットでトレーニングされる。その結果,コサイン学習速度の減衰と調整可能なバッチサイズは精度と収束速度を大きく向上させる可能性が示唆された。
論文参考訳（メタデータ） (2025-07-31T07:47:30Z)
AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
第一次最適化法は、現在、深層ニューラルネットワーク(DNN)のトレーニングにおいて主流となっている。Adamのような企業は、トレーニング中に勾配の行列プレコンディショニングを利用することで、限られた曲率情報を取り入れている。広範に使われている2階最適化アルゴリズムは、AdamやSGDのような一階最適化アルゴリズムよりも優れた収束特性を示す。本稿では,適応勾配プレコンディショニングのためのフィッシャー情報行列の角角ブロッククロネッカー近似を利用する適応二階法であるEmphAdaFisherを提案する。
論文参考訳（メタデータ） (2024-05-26T01:25:02Z)
Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文参考訳（メタデータ） (2024-05-23T13:52:36Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Neural Gradient Learning and Optimization for Oriented Point Normal Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文参考訳（メタデータ） (2023-09-17T08:35:11Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文参考訳（メタデータ） (2023-07-02T18:16:06Z)
Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文参考訳（メタデータ） (2023-05-23T04:12:55Z)
Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter Initialization [3.1153758106426603]
学習速度を$alpha$でローカライズする最適化メタアルゴリズムであるActiveLRを提案し,各エポックの勾配が符号を変更するか否かに応じて各エポックに適応する。我々は、広く使われ、最近公開された勾配勾配勾配、すなわち運動量を持つSGD、AdamW、RAdam、AdaBeliefのアクティブバージョン(我々のもの)を実装している。
論文参考訳（メタデータ） (2023-01-24T16:57:00Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文参考訳（メタデータ） (2022-08-13T16:04:39Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。 Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文参考訳（メタデータ） (2021-09-07T20:19:40Z)
How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文参考訳（メタデータ） (2021-06-21T17:59:51Z)
A Bop and Beyond: A Second Order Optimizer for Binarized Neural Networks [0.0]
Binary Neural Networks (BNNs) の最適化は、実数値の重みをバイナライズ表現で近似することに依存している。本稿では,第2の生モーメント推定を用いて第1の生モーメントを正規化し,しきい値との比較を行うアダム法と並行する手法を提案する。提案した2つのバージョン – バイアス付きバージョンとバイアス修正バージョン – をそれぞれ独自のアプリケーションで提示する。
論文参考訳（メタデータ） (2021-04-11T22:20:09Z)
Exploiting Adam-like Optimization Algorithms to Improve the Performance of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。 resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文参考訳（メタデータ） (2021-03-26T18:55:08Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。