論文の概要: Mixing ADAM and SGD: a Combined Optimization Method
- arxiv url: http://arxiv.org/abs/2011.08042v1
- Date: Mon, 16 Nov 2020 15:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 01:08:29.115702
- Title: Mixing ADAM and SGD: a Combined Optimization Method
- Title(参考訳): ADAMとSGDを混合した最適化手法
- Authors: Nicola Landro, Ignazio Gallo, Riccardo La Grassa
- Abstract要約: 我々はMAS (Mixing ADAM and SGD) と呼ばれる新しいタイプの最適化手法を提案する。
SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。
我々は様々なCNNを用いて画像とテキスト文書の分類実験を行い、提案したMASが単一のSGDやADAMよりも優れた性能を示すことを示した。
- 参考スコア(独自算出の注目度): 0.9569316316728905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization methods (optimizers) get special attention for the efficient
training of neural networks in the field of deep learning. In literature there
are many papers that compare neural models trained with the use of different
optimizers. Each paper demonstrates that for a particular problem an optimizer
is better than the others but as the problem changes this type of result is no
longer valid and we have to start from scratch. In our paper we propose to use
the combination of two very different optimizers but when used simultaneously
they can overcome the performances of the single optimizers in very different
problems. We propose a new optimizer called MAS (Mixing ADAM and SGD) that
integrates SGD and ADAM simultaneously by weighing the contributions of both
through the assignment of constant weights. Rather than trying to improve SGD
or ADAM we exploit both at the same time by taking the best of both. We have
conducted several experiments on images and text document classification, using
various CNNs, and we demonstrated by experiments that the proposed MAS
optimizer produces better performance than the single SGD or ADAM optimizers.
The source code and all the results of the experiments are available online at
the following link https://gitlab.com/nicolalandro/multi\_optimizer
- Abstract(参考訳): 最適化手法(最適化)は、ディープラーニングの分野におけるニューラルネットワークの効率的なトレーニングに特に注目される。
文献では、トレーニングされた神経モデルと異なるオプティマイザの使用を比較する多くの論文がある。
各論文は、特定の問題に対してオプティマイザは他の問題よりも優れていることを示したが、問題が変化するにつれてこのタイプの結果はもはや有効ではなく、ゼロから始める必要がある。
本稿では,2つの異なる最適化器の組み合わせを提案するが,同時に使用すると,異なる問題で単一最適化器の性能を克服できる。
我々はSGDとADAMを同時に統合するMAS (Mixing ADAM and SGD) と呼ばれる新しいオプティマイザを提案する。
SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。
我々は,様々なcnnを用いて画像とテキスト文書の分類実験を行い,提案するmasオプティマイザが単一のsgdやadamオプティマイザよりも優れた性能をもたらすことを実証した。
実験のソースコードとすべての結果は、以下のリンクhttps://gitlab.com/nicolalandro/multi\_optimizerでオンラインで入手できる。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Should I try multiple optimizers when fine-tuning pre-trained
Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。
学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。
最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文 参考訳(メタデータ) (2024-02-10T13:26:14Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Multimodal Optimization with k-Cluster Big Bang-Big Crunch Algorithm and Postprocessing Methods for Identification and Quantification of Optima [0.7639610349097473]
マルチモーダル最適化は工学的な問題、特に異なる代替解を求める場合にしばしば発生する。
本稿では,あまり知られていないビッグバン・ビッグ・Crunch(BBBC)アルゴリズムがマルチモーダル最適化に適しているかを検討する。
論文 参考訳(メタデータ) (2023-12-21T06:16:32Z) - Judging Adam: Studying the Performance of Optimization Methods on ML4SE
Tasks [2.8961929092154697]
ソースコードの深層学習モデルを用いて各種の性能を検証した。
Anaheadの選択は、モデルの品質に大きな影響を与えます。
ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
論文 参考訳(メタデータ) (2023-03-06T22:49:20Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。