論文の概要: Automatic gradient descent with generalized Newton's method
- arxiv url: http://arxiv.org/abs/2407.02772v1
- Date: Wed, 3 Jul 2024 03:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 15:44:50.211762
- Title: Automatic gradient descent with generalized Newton's method
- Title(参考訳): 一般化ニュートン法による勾配自動降下
- Authors: Zhiqi Bu, Shiyun Xu,
- Abstract要約: 本稿では,SGDやAdamなどのトピックに適用可能なヘシアンインフォームドアプローチを提案する。
本手法は,収束を加速する学習率を自動的に動的に選択する。
実際にoutメソッドは、計算オーバーヘッドがほとんどゼロのフォワードパスのみを必要とするため、実装が容易である。
- 参考スコア(独自算出の注目度): 8.885727065823156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the generalized Newton's method (GeN) -- a Hessian-informed approach that applies to any optimizer such as SGD and Adam, and covers the Newton-Raphson method as a sub-case. Our method automatically and dynamically selects the learning rate that accelerates the convergence, without the intensive tuning of the learning rate scheduler. In practice, out method is easily implementable, since it only requires additional forward passes with almost zero computational overhead (in terms of training time and memory cost), if the overhead is amortized over many iterations. We present extensive experiments on language and vision tasks (e.g. GPT and ResNet) to showcase that GeN optimizers match the state-of-the-art performance, which was achieved with carefully tuned learning rate schedulers. Code to be released at \url{https://github.com/ShiyunXu/AutoGeN}.
- Abstract(参考訳): 一般化されたニュートン法(GeN)は、SGDやAdamのような任意の最適化手法に適用可能なヘシアンインフォームドアプローチであり、ニュートン・ラフソン法をサブケースとしてカバーする。
本手法は,学習率スケジューラを集中的に調整することなく,収束を加速する学習率を自動的に動的に選択する。
実際にoutメソッドは、多くのイテレーションでオーバーヘッドが償却される場合、(トレーニング時間とメモリコストの観点から)ほぼゼロの計算オーバーヘッドを持つ追加のフォワードパスしか必要としないため、容易に実装できる。
言語および視覚タスク(例えばGPTやResNet)に関する広範な実験を行い、GeN最適化が最先端のパフォーマンスと一致していることを示し、注意深く調整された学習率スケジューラを用いて達成した。
コードは \url{https://github.com/ShiyunXu/AutoGeN} でリリースされる。
関連論文リスト
- On Newton's Method to Unlearn Neural Networks [44.85793893441989]
ニューラルネット(NN)に対する近似的未学習アルゴリズムを探索し、同じモデルを再学習したオラクルに返却する。
本稿では, 立方正則化を利用してヘッセン系縮退を効果的に処理するCureNewton法を提案する。
異なるモデルとデータセットをまたいだ実験により、我々の手法は、実践的な未学習環境で最先端のアルゴリズムと競合する未学習性能を達成できることを示した。
論文 参考訳(メタデータ) (2024-06-20T17:12:20Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - AutoDrop: Training Deep Learning Models with Automatic Learning Rate
Drop [16.396327849817464]
学習速度を$textitautomatically$に下げるアルゴリズムを開発した。
提案手法はSOTAトレーニングアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-30T11:55:21Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z) - Deep Neural Network Learning with Second-Order Optimizers -- a Practical
Study with a Stochastic Quasi-Gauss-Newton Method [0.0]
本稿では,準ニュートン法,ガウスニュートン法,分散還元法を併用した2次準ニュートン最適化法を提案する。
ベンチマークによるSQGNの実装について検討し、その収束性と計算性能を選択された一階法と比較する。
論文 参考訳(メタデータ) (2020-04-06T23:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。