Fugu-MT 論文翻訳(概要): Gravity Optimizer: a Kinematic Approach on Optimization in Deep Learning

論文の概要: Gravity Optimizer: a Kinematic Approach on Optimization in Deep Learning

arxiv url: http://arxiv.org/abs/2101.09192v1
Date: Fri, 22 Jan 2021 16:27:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-20 22:39:46.356218
Title: Gravity Optimizer: a Kinematic Approach on Optimization in Deep Learning
Title（参考訳）: gravity optimizer: ディープラーニングにおける最適化に関するキネマティックなアプローチ
Authors: Dariush Bahrami, Sadegh Pouriyan Zadeh
Abstract要約: グラデーションに基づく最適化のための別のアルゴリズムであるgravityを紹介する。本論文では,深層学習モデルの損失を軽減するために,新しいアイデアがパラメータをどう変えるかを説明する。また、移動平均の代替案を提案します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Gravity, another algorithm for gradient-based optimization. In this paper, we explain how our novel idea change parameters to reduce the deep learning model's loss. It has three intuitive hyper-parameters that the best values for them are proposed. Also, we propose an alternative to moving average. To compare the performance of the Gravity optimizer with two common optimizers, Adam and RMSProp, five standard datasets were trained on two VGGNet models with a batch size of 128 for 100 epochs. Gravity hyper-parameters did not need to be tuned for different models. As will be explained more in the paper, to investigate the direct impact of the optimizer itself on loss reduction no overfitting prevention technique was used. The obtained results show that the Gravity optimizer has more stable performance than Adam and RMSProp and gives greater values of validation accuracy for datasets with more output classes like CIFAR-100 (Fine).
Abstract（参考訳）: グラデーションに基づく最適化のための別のアルゴリズムであるgravityを紹介する。本稿では,ディープラーニングモデルの損失を減らすために,新しいアイデアがパラメータをどう変えるかを説明する。直感的な3つのハイパーパラメータを持ち、それらの最良の値が提案されます。また,移動平均の代替案を提案する。 GravityオプティマイザのパフォーマンスをAdamとRMSPropの2つの一般的なオプティマイザと比較するために、5つの標準データセットを2つのVGGNetモデルでトレーニングした。重力ハイパーパラメータは異なるモデルのために調整される必要はない。本稿で説明するように、最適化器自体の損失低減効果を直接検討するためにオーバーフィッティング防止技術は使用されなかった。その結果,GravityオプティマイザはAdamやRMSPropよりも安定した性能を示し,CIFAR-100(Fine)のような出力クラスを持つデータセットに対する検証精度が向上した。

関連論文リスト

Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文参考訳（メタデータ） (2024-05-23T13:52:36Z)
Should I try multiple optimizers when fine-tuning pre-trained Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文参考訳（メタデータ） (2024-02-10T13:26:14Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
XGrad: Boosting Gradient-Based Optimizers With Weight Prediction [20.068681423455057]
本稿では,総合的なディープラーニング学習フレームワークXGradを提案する。 XGradは、一般的な勾配に基づくDNNに重み予測を導入し、収束と一般化を促進する。実験により,XGradはモデルトレーニング時のベースラインよりも高いモデル精度が得られることを確認した。
論文参考訳（メタデータ） (2023-05-26T10:34:00Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Curvature Injected Adaptive Momentum Optimizer for Convolutional Neural Networks [21.205976369691765]
本稿では、降下勾配に対するAdaInjectと呼ばれる新しいアプローチを提案する。曲率情報は、更新ルールの2次モーメントを注入するウェイトとして使用される。 AdaInjectアプローチは、曲率情報を活用することにより、パラメータの更新を促進する。
論文参考訳（メタデータ） (2021-09-26T06:24:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。