論文の概要: Large Learning Rates Improve Generalization: But How Large Are We
Talking About?
- arxiv url: http://arxiv.org/abs/2311.11303v1
- Date: Sun, 19 Nov 2023 11:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 21:11:04.544812
- Title: Large Learning Rates Improve Generalization: But How Large Are We
Talking About?
- Title(参考訳): 大きな学習率によって一般化が改善される:しかし、どのくらい大きなことを言っているのか?
- Authors: Ekaterina Lobacheva, Eduard Pockonechnyy, Maxim Kodryan, Dmitry Vetrov
- Abstract要約: 最近の研究は、最高の一般化を達成するために、大きな学習率(LR)でニューラルネットワークのトレーニングを開始することを推奨している。
本研究は, 初回LR範囲を明らかにし, 後続のLRおよび重量平均化によるトレーニングに最適な結果を与えるものである。
- 参考スコア(独自算出の注目度): 6.218417024312705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by recent research that recommends starting neural networks training
with large learning rates (LRs) to achieve the best generalization, we explore
this hypothesis in detail. Our study clarifies the initial LR ranges that
provide optimal results for subsequent training with a small LR or weight
averaging. We find that these ranges are in fact significantly narrower than
generally assumed. We conduct our main experiments in a simplified setup that
allows precise control of the learning rate hyperparameter and validate our key
findings in a more practical setting.
- Abstract(参考訳): ニューラルネットワークのトレーニングを大きな学習率(LR)で始めることを推奨する最近の研究から着想を得て、この仮説を詳細に検討する。
本研究は, 初回LR範囲を明らかにし, 後続のLRおよび重量平均化によるトレーニングに最適な結果を与えるものである。
これらの範囲は、一般的に想定されるよりもかなり狭い。
学習速度のハイパーパラメータを正確に制御し,より実用的な設定で重要な知見を検証できるように,簡易な設定で主実験を行った。
関連論文リスト
- Where Do Large Learning Rates Lead Us? [5.305784285588872]
小さいLRや重量平均値で微調整を行った結果,初期LRの幅が狭いだけで最適な結果が得られた。
これらの初期LRは、タスクに最も関係のある機能に明確に焦点を合わせながら、学習された機能の集合を疎結合にしていることを示す。
対照的に、LRが小さすぎると不安定な最小化が生じ、全ての特徴を同時に学習しようと試み、その結果一般化が不十分になる。
論文 参考訳(メタデータ) (2024-10-29T15:14:37Z) - Boosting Deep Ensembles with Learning Rate Tuning [1.6021932740447968]
学習率(LR)は、ディープラーニングトレーニングのパフォーマンスに高い影響を与える。
本稿では,学習率を効果的に調整し,深層アンサンブル性能を向上させるための新しいフレームワークであるLREnsembleを提案する。
論文 参考訳(メタデータ) (2024-10-10T02:59:38Z) - Scaling Optimal LR Across Token Horizons [81.29631219839311]
LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。
また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
論文 参考訳(メタデータ) (2024-09-30T03:32:02Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Small batch deep reinforcement learning [31.69289254478042]
値に基づく深層強化学習では、バッチサイズパラメータは、各勾配更新に対するサンプルへの遷移数を指定する。
本研究では,バッチサイズを小さくすることで,多くの大幅な性能向上が期待できることを示す広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-10-05T20:31:37Z) - RPLKG: Robust Prompt Learning with Knowledge Graph [11.893917358053004]
知識グラフ(RPLKG)を用いた頑健な学習手法を提案する。
知識グラフに基づいて,多種多様な解釈可能かつ有意義なプロンプトセットを自動設計する。
RPLKGはゼロショット学習に比べてパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2023-04-21T08:22:58Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Large-Scale Deep Learning Optimizations: A Comprehensive Survey [7.901786481399378]
本研究の目的は,モデル精度とモデル効率に関する大規模深層学習の最適化に関するスケッチを提供することである。
我々は,大規模バッチ学習で発生する一般化ギャップの解答的トピックを最適化するために最もよく用いられるアルゴリズムについて検討し,通信オーバヘッドに対処し,メモリフットプリントを削減するためのSOTA戦略を概観する。
論文 参考訳(メタデータ) (2021-11-01T11:53:30Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Robust Sampling in Deep Learning [62.997667081978825]
ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。
分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。
トレーニング中は、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。
論文 参考訳(メタデータ) (2020-06-04T09:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。