論文の概要: Gravity Optimizer: a Kinematic Approach on Optimization in Deep Learning
- arxiv url: http://arxiv.org/abs/2101.09192v1
- Date: Fri, 22 Jan 2021 16:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 22:39:46.356218
- Title: Gravity Optimizer: a Kinematic Approach on Optimization in Deep Learning
- Title(参考訳): gravity optimizer: ディープラーニングにおける最適化に関するキネマティックなアプローチ
- Authors: Dariush Bahrami, Sadegh Pouriyan Zadeh
- Abstract要約: グラデーションに基づく最適化のための別のアルゴリズムであるgravityを紹介する。
本論文では,深層学習モデルの損失を軽減するために,新しいアイデアがパラメータをどう変えるかを説明する。
また、移動平均の代替案を提案します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Gravity, another algorithm for gradient-based optimization. In
this paper, we explain how our novel idea change parameters to reduce the deep
learning model's loss. It has three intuitive hyper-parameters that the best
values for them are proposed. Also, we propose an alternative to moving
average. To compare the performance of the Gravity optimizer with two common
optimizers, Adam and RMSProp, five standard datasets were trained on two VGGNet
models with a batch size of 128 for 100 epochs. Gravity hyper-parameters did
not need to be tuned for different models. As will be explained more in the
paper, to investigate the direct impact of the optimizer itself on loss
reduction no overfitting prevention technique was used. The obtained results
show that the Gravity optimizer has more stable performance than Adam and
RMSProp and gives greater values of validation accuracy for datasets with more
output classes like CIFAR-100 (Fine).
- Abstract(参考訳): グラデーションに基づく最適化のための別のアルゴリズムであるgravityを紹介する。
本稿では,ディープラーニングモデルの損失を減らすために,新しいアイデアがパラメータをどう変えるかを説明する。
直感的な3つのハイパーパラメータを持ち、それらの最良の値が提案されます。
また,移動平均の代替案を提案する。
GravityオプティマイザのパフォーマンスをAdamとRMSPropの2つの一般的なオプティマイザと比較するために、5つの標準データセットを2つのVGGNetモデルでトレーニングした。
重力ハイパーパラメータは異なるモデルのために調整される必要はない。
本稿で説明するように、最適化器自体の損失低減効果を直接検討するためにオーバーフィッティング防止技術は使用されなかった。
その結果,GravityオプティマイザはAdamやRMSPropよりも安定した性能を示し,CIFAR-100(Fine)のような出力クラスを持つデータセットに対する検証精度が向上した。
関連論文リスト
- Should I try multiple optimizers when fine-tuning pre-trained
Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。
学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。
最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文 参考訳(メタデータ) (2024-02-10T13:26:14Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [76.80594193051837]
メタ適応(MADA)は、複数の既知の知識を一般化し、トレーニング中に最も適した知識を動的に学習できる統合フレームワークである。
我々は、CNN、ResNet、GPT-2モデルをトレーニングするために、視覚および言語タスクに関する他の人気のあるGradsとMADAを比較した。
MADAは、他の人気のあるGradsがGPT-2トレーニングで行なっているAdamよりも3倍のバリデーションパフォーマンスが得られます。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Curvature Injected Adaptive Momentum Optimizer for Convolutional Neural
Networks [21.205976369691765]
本稿では、降下勾配に対するAdaInjectと呼ばれる新しいアプローチを提案する。
曲率情報は、更新ルールの2次モーメントを注入するウェイトとして使用される。
AdaInjectアプローチは、曲率情報を活用することにより、パラメータの更新を促進する。
論文 参考訳(メタデータ) (2021-09-26T06:24:14Z) - Genetically Optimized Prediction of Remaining Useful Life [4.115847582689283]
LSTMおよびGRUモデルを実装し、得られた結果と提案された遺伝子訓練ニューラルネットワークを比較します。
遺伝的アルゴリズムを用いた他の最適化層を追加することによって,予測の整合性の向上を期待する。
これらのモデルと提案されたアーキテクチャは、nasaのターボファンジェットエンジンデータセットでテストされている。
論文 参考訳(メタデータ) (2021-02-17T16:09:23Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。