論文の概要: Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate
- arxiv url: http://arxiv.org/abs/2602.07145v1
- Date: Fri, 06 Feb 2026 19:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.469293
- Title: Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate
- Title(参考訳): 深層学習における凸支配 I:損失と学習率のスケーリング法則
- Authors: Zhiqi Bu, Shiyun Xu, Jialin Mao,
- Abstract要約: 私たちは、水平線を80倍、モデルサイズを70倍まで超える、学習損失のスケーリング法則を構築しています。
本研究では,深層学習における凸性学習の適用性について検討する。
- 参考スコア(独自算出の注目度): 22.71698856328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has non-convex loss landscape and its optimization dynamics is hard to analyze or control. Nevertheless, the dynamics can be empirically convex-like across various tasks, models, optimizers, hyperparameters, etc. In this work, we examine the applicability of convexity and Lipschitz continuity in deep learning, in order to precisely control the loss dynamics via the learning rate schedules. We illustrate that deep learning quickly becomes weakly convex after a short period of training, and the loss is predicable by an upper bound on the last iterate, which further informs the scaling of optimal learning rate. Through the lens of convexity, we build scaling laws of learning rates and losses that extrapolate as much as 80X across training horizons and 70X across model sizes.
- Abstract(参考訳): ディープラーニングは非凸ロスランドスケープを持ち、その最適化ダイナミクスは分析や制御が難しい。
それでも、ダイナミックスは、さまざまなタスク、モデル、オプティマイザ、ハイパーパラメータなどにわたって、経験的に凸状になる可能性がある。
本研究では,深層学習における凸性およびリプシッツ連続性の適用性を検討した。
本稿では,短時間の訓練で深層学習が急速に凸に陥り,最終反復点上の上限によって損失が予測可能となり,学習速度の最適化がさらに促進されることを示す。
凸性のレンズによって、学習率と損失のスケーリング法則を構築し、トレーニングの地平線を80倍、モデルのサイズを70倍まで超えるようにします。
関連論文リスト
- Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks [59.552873049024775]
計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。
学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。
これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
論文 参考訳(メタデータ) (2025-07-02T20:03:34Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Learning Rate Schedules in the Presence of Distribution Shift [18.310336156637774]
我々は、変化するデータ分布の存在下で、後悔するネットワークが累積的に学習する学習スケジュールを設計する。
我々は, 高次元回帰モデルを用いて, 後悔モデルを増加させる実験を行った。
論文 参考訳(メタデータ) (2023-03-27T23:29:02Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - Balanced Softmax Cross-Entropy for Incremental Learning [6.5423218639215275]
ディープニューラルネットワークは、新しいクラスや新しいタスクで段階的に訓練されると壊滅的な忘れがちです。
近年の手法は破滅的な忘れを緩和するのに有効であることが証明されている。
本稿では,バランスの取れたソフトマックスクロスエントロピー損失の利用を提案し,それとインクリメンタル学習のための離脱法を組み合わせることで,パフォーマンスを向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-23T13:30:26Z) - Estimation error analysis of deep learning on the regression problem on
the variable exponent Besov space [50.83356836818667]
可変指数ベソフ空間の一般近似誤差とディープラーニングの近似と推定誤差を解析する。
適応性に基づく改善は, 対象関数の滑らかさが小さい領域が小さく, 寸法が大きい場合に顕著である。
論文 参考訳(メタデータ) (2020-09-23T17:56:24Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。