Fugu-MT 論文翻訳(概要): Mixing ADAM and SGD: a Combined Optimization Method

論文の概要: Mixing ADAM and SGD: a Combined Optimization Method

arxiv url: http://arxiv.org/abs/2011.08042v1
Date: Mon, 16 Nov 2020 15:48:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-25 01:08:29.115702
Title: Mixing ADAM and SGD: a Combined Optimization Method
Title（参考訳）: ADAMとSGDを混合した最適化手法
Authors: Nicola Landro, Ignazio Gallo, Riccardo La Grassa
Abstract要約: 我々はMAS (Mixing ADAM and SGD) と呼ばれる新しいタイプの最適化手法を提案する。 SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。我々は様々なCNNを用いて画像とテキスト文書の分類実験を行い、提案したMASが単一のSGDやADAMよりも優れた性能を示すことを示した。
参考スコア（独自算出の注目度）: 0.9569316316728905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimization methods (optimizers) get special attention for the efficient training of neural networks in the field of deep learning. In literature there are many papers that compare neural models trained with the use of different optimizers. Each paper demonstrates that for a particular problem an optimizer is better than the others but as the problem changes this type of result is no longer valid and we have to start from scratch. In our paper we propose to use the combination of two very different optimizers but when used simultaneously they can overcome the performances of the single optimizers in very different problems. We propose a new optimizer called MAS (Mixing ADAM and SGD) that integrates SGD and ADAM simultaneously by weighing the contributions of both through the assignment of constant weights. Rather than trying to improve SGD or ADAM we exploit both at the same time by taking the best of both. We have conducted several experiments on images and text document classification, using various CNNs, and we demonstrated by experiments that the proposed MAS optimizer produces better performance than the single SGD or ADAM optimizers. The source code and all the results of the experiments are available online at the following link https://gitlab.com/nicolalandro/multi\_optimizer
Abstract（参考訳）: 最適化手法(最適化)は、ディープラーニングの分野におけるニューラルネットワークの効率的なトレーニングに特に注目される。文献では、トレーニングされた神経モデルと異なるオプティマイザの使用を比較する多くの論文がある。各論文は、特定の問題に対してオプティマイザは他の問題よりも優れていることを示したが、問題が変化するにつれてこのタイプの結果はもはや有効ではなく、ゼロから始める必要がある。本稿では,2つの異なる最適化器の組み合わせを提案するが,同時に使用すると,異なる問題で単一最適化器の性能を克服できる。我々はSGDとADAMを同時に統合するMAS (Mixing ADAM and SGD) と呼ばれる新しいオプティマイザを提案する。 SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。我々は,様々なcnnを用いて画像とテキスト文書の分類実験を行い,提案するmasオプティマイザが単一のsgdやadamオプティマイザよりも優れた性能をもたらすことを実証した。実験のソースコードとすべての結果は、以下のリンクhttps://gitlab.com/nicolalandro/multi\_optimizerでオンラインで入手できる。

関連論文リスト

Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。 L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文参考訳（メタデータ） (2025-03-14T14:48:12Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
Should I try multiple optimizers when fine-tuning pre-trained Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文参考訳（メタデータ） (2024-02-10T13:26:14Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
Multimodal Optimization with k-Cluster Big Bang-Big Crunch Algorithm and Postprocessing Methods for Identification and Quantification of Optima [0.7639610349097473]
マルチモーダル最適化は工学的な問題、特に異なる代替解を求める場合にしばしば発生する。本稿では,あまり知られていないビッグバン・ビッグ・Crunch(BBBC)アルゴリズムがマルチモーダル最適化に適しているかを検討する。
論文参考訳（メタデータ） (2023-12-21T06:16:32Z)
Judging Adam: Studying the Performance of Optimization Methods on ML4SE Tasks [2.8961929092154697]
ソースコードの深層学習モデルを用いて各種の性能を検証した。 Anaheadの選択は、モデルの品質に大きな影響を与えます。 ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
論文参考訳（メタデータ） (2023-03-06T22:49:20Z)
Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。深部負相関分類(DNCC)を提案する。 DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文参考訳（メタデータ） (2022-12-14T07:35:20Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか? まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文参考訳（メタデータ） (2022-03-12T16:07:57Z)
Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文参考訳（メタデータ） (2020-09-23T16:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。