論文の概要: Should I try multiple optimizers when fine-tuning pre-trained
Transformers for NLP tasks? Should I tune their hyperparameters?
- arxiv url: http://arxiv.org/abs/2402.06948v1
- Date: Sat, 10 Feb 2024 13:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:32:59.445758
- Title: Should I try multiple optimizers when fine-tuning pre-trained
Transformers for NLP tasks? Should I tune their hyperparameters?
- Title(参考訳): NLPタスク用にトレーニング済みのトランスフォーマーを微調整する場合、複数のオプティマイザを試すべきだろうか?
ハイパーパラメータをチューニングすべきか?
- Authors: Nefeli Gkouti, Prodromos Malakasiotis, Stavros Toumpis, Ion
Androutsopoulos
- Abstract要約: SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。
学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。
最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
- 参考スコア(独自算出の注目度): 14.349943044268471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP research has explored different neural model architectures and sizes,
datasets, training objectives, and transfer learning techniques. However, the
choice of optimizer during training has not been explored as extensively.
Typically, some variant of Stochastic Gradient Descent (SGD) is employed,
selected among numerous variants, using unclear criteria, often with minimal or
no tuning of the optimizer's hyperparameters. Experimenting with five GLUE
datasets, two models (DistilBERT and DistilRoBERTa), and seven popular
optimizers (SGD, SGD with Momentum, Adam, AdaMax, Nadam, AdamW, and AdaBound),
we find that when the hyperparameters of the optimizers are tuned, there is no
substantial difference in test performance across the five more elaborate
(adaptive) optimizers, despite differences in training loss. Furthermore,
tuning just the learning rate is in most cases as good as tuning all the
hyperparameters. Hence, we recommend picking any of the best-behaved adaptive
optimizers (e.g., Adam) and tuning only its learning rate. When no
hyperparameter can be tuned, SGD with Momentum is the best choice.
- Abstract(参考訳): nlp researchは、さまざまなニューラルモデルアーキテクチャとサイズ、データセット、トレーニング目標、転送学習技術を調査している。
しかし、トレーニング中のオプティマイザの選択は、それほど広く調査されていない。
典型的には、いくつかの確率勾配降下 (sgd) の変種が採用され、多くの変種の中から選択され、不明瞭な基準を使い、しばしば最適化器のハイパーパラメータを最小または全く調整しない。
5つのGLUEデータセットと2つのモデル(DistilBERTとDistilRoBERTa)と7つの人気のあるオプティマイザ(SGD、SGD、Momentum、Adam、AdaMax、Nadam、AdamW、AdaBound)を実験した結果、オプティマイザのハイパーパラメータがチューニングされると、トレーニング損失の違いにもかかわらず、5つのより詳細な(適応的な)オプティマイザ間でテストパフォーマンスに実質的な違いはないことがわかった。
さらに、学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらいよい。
したがって、最適な最適化(例えばAdam)を選択して、学習率のみを調整することを推奨します。
ハイパーパラメータを調整できない場合、Momentum を用いた SGD が最適である。
関連論文リスト
- Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - SMOOTHIE: A Theory of Hyper-parameter Optimization for Software
Analytics [14.0078949388954]
本稿では,スモースネスを考慮した新しいハイパーパラメータSMOOTHIEの実装とテストを行う。
実験には、GitHubイシューの寿命予測、静的コード警告における偽アラームの検出、欠陥予測などがある。
SMOOTHIEは以前の最先端技術よりも300%速く走った。
論文 参考訳(メタデータ) (2024-01-17T22:23:29Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - The Role of Adaptive Optimizers for Honest Private Hyperparameter
Selection [12.38071940409141]
標準合成ツールは、多くの設定において、より高度な技術よりも優れていることを示す。
我々は、新しいより効率的なツールを設計するために、DP設定におけるAdamの制限的な振る舞いを描きます。
論文 参考訳(メタデータ) (2021-11-09T01:56:56Z) - Automatic prior selection for meta Bayesian optimization with a case
study on tuning deep neural network optimizers [47.013395100497775]
このような高価なハイパーパラメータチューニング問題を効率的に解くための原理的アプローチを提案する。
BOの性能の鍵となるのは関数上の分布を指定および精製することであり、これは基礎となる関数の最適化を推論するために使われる。
我々は、一般的な画像やテキストデータセット上で、最先端に近いモデルの何万もの設定をトレーニングすることで、現実的なモデルトレーニング設定におけるアプローチを検証する。
論文 参考訳(メタデータ) (2021-09-16T20:46:26Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。