論文の概要: Where Do Large Learning Rates Lead Us?
- arxiv url: http://arxiv.org/abs/2410.22113v1
- Date: Tue, 29 Oct 2024 15:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:24.879312
- Title: Where Do Large Learning Rates Lead Us?
- Title(参考訳): 大規模学習の速度は、どこをリードするのか?
- Authors: Ildus Sadrtdinov, Maxim Kodryan, Eduard Pokonechny, Ekaterina Lobacheva, Dmitry Vetrov,
- Abstract要約: 小さいLRや重量平均値で微調整を行った結果,初期LRの幅が狭いだけで最適な結果が得られた。
これらの初期LRは、タスクに最も関係のある機能に明確に焦点を合わせながら、学習された機能の集合を疎結合にしていることを示す。
対照的に、LRが小さすぎると不安定な最小化が生じ、全ての特徴を同時に学習しようと試み、その結果一般化が不十分になる。
- 参考スコア(独自算出の注目度): 5.305784285588872
- License:
- Abstract: It is generally accepted that starting neural networks training with large learning rates (LRs) improves generalization. Following a line of research devoted to understanding this effect, we conduct an empirical study in a controlled setting focusing on two questions: 1) how large an initial LR is required for obtaining optimal quality, and 2) what are the key differences between models trained with different LRs? We discover that only a narrow range of initial LRs slightly above the convergence threshold lead to optimal results after fine-tuning with a small LR or weight averaging. By studying the local geometry of reached minima, we observe that using LRs from this optimal range allows for the optimization to locate a basin that only contains high-quality minima. Additionally, we show that these initial LRs result in a sparse set of learned features, with a clear focus on those most relevant for the task. In contrast, starting training with too small LRs leads to unstable minima and attempts to learn all features simultaneously, resulting in poor generalization. Conversely, using initial LRs that are too large fails to detect a basin with good solutions and extract meaningful patterns from the data.
- Abstract(参考訳): 一般論として、大きな学習率(LR)によるニューラルネットワークトレーニングの開始が一般化を改善することが受け入れられている。
この効果を理解するための一連の研究の後、我々は2つの質問に焦点をあてた制御された環境で実証的研究を行う。
1) 最適品質を得るために、初期LRがどの程度必要か、そして、
2)異なるLRで訓練されたモデルの違いは何か。
収束しきい値よりわずかに低い範囲の初期LRだけが、小さなLRや平均値で微調整した後に最適な結果をもたらすことが判明した。
到達したミニマの局所幾何学を研究することにより、この最適範囲からLRを用いることで、高品質のミニマしか持たない盆地を見つけることができる。
さらに、これらの初期LRは、タスクに最も関係のある機能に明確な焦点を絞って、学習された機能の集合を疎結合にしていることを示す。
対照的に、LRが小さすぎると不安定な最小化が生じ、全ての特徴を同時に学習しようと試み、その結果一般化が不十分になる。
逆に、大きすぎる初期LRを使用すると、良い解を持つ盆地を検出し、データから意味のあるパターンを抽出することができない。
関連論文リスト
- ClearSR: Latent Low-Resolution Image Embeddings Help Diffusion-Based Real-World Super Resolution Models See Clearer [68.72454974431749]
本稿では、拡散に基づく実世界の超解像(Real-ISR)に対する潜在低分解能画像(LR)埋め込みの利点を活かす新しい手法であるClearSRを提案する。
提案モデルでは,複数のテストセット上で複数の測定値にまたがる性能が向上し,既存の手法よりもLR画像でより一貫したSR結果が得られる。
論文 参考訳(メタデータ) (2024-10-18T08:35:57Z) - Boosting Deep Ensembles with Learning Rate Tuning [1.6021932740447968]
学習率(LR)は、ディープラーニングトレーニングのパフォーマンスに高い影響を与える。
本稿では,学習率を効果的に調整し,深層アンサンブル性能を向上させるための新しいフレームワークであるLREnsembleを提案する。
論文 参考訳(メタデータ) (2024-10-10T02:59:38Z) - Scaling Optimal LR Across Token Horizons [81.29631219839311]
LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。
また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
論文 参考訳(メタデータ) (2024-09-30T03:32:02Z) - Large Learning Rates Improve Generalization: But How Large Are We
Talking About? [6.218417024312705]
最近の研究は、最高の一般化を達成するために、大きな学習率(LR)でニューラルネットワークのトレーニングを開始することを推奨している。
本研究は, 初回LR範囲を明らかにし, 後続のLRおよび重量平均化によるトレーニングに最適な結果を与えるものである。
論文 参考訳(メタデータ) (2023-11-19T11:36:35Z) - Selecting and Composing Learning Rate Policies for Deep Neural Networks [10.926538783768219]
本稿では,効率的なディープニューラルネットワーク(DNN)トレーニングのためのLRポリシーの選択と構成に関する体系的なアプローチを提案する。
本研究では,所定のLRポリシーを予め定義されたトレーニング時間制約の下で,所望の精度目標に対して自動検証するLRチューニング機構を開発する。
第2に、動的チューニングにより、同一および/または異なるLR関数から優れたLRポリシーを選択し、構成するためのLRポリシーレコメンデーションシステム(LRBench)を開発する。
第3に、異なるDNNをサポートすることによりLRBenchを拡張し、異なるLRポリシーと異なるポリシーによる大きな相互影響を示す。
論文 参考訳(メタデータ) (2022-10-24T03:32:59Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z) - MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文 参考訳(メタデータ) (2020-07-29T01:18:58Z) - Closed-loop Matters: Dual Regression Networks for Single Image
Super-Resolution [73.86924594746884]
ディープニューラルネットワークは、画像超解像において有望な性能を示した。
これらのネットワークは、低分解能(LR)画像から高分解能(HR)画像への非線形マッピング関数を学習する。
本稿では,可能な関数の空間を削減するために,LRデータに新たな制約を導入することで,二重回帰手法を提案する。
論文 参考訳(メタデータ) (2020-03-16T04:23:42Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。