論文の概要: Explainable Learning Rate Regimes for Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2508.13639v1
- Date: Tue, 19 Aug 2025 08:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.858721
- Title: Explainable Learning Rate Regimes for Stochastic Optimization
- Title(参考訳): 確率最適化のための説明可能な学習率レジーム
- Authors: Zhuang Yang,
- Abstract要約: 現代の機械学習は勾配降下(SGD)によって訓練され、その性能は学習率(LR)が時間とともにどのように調整され減少するかに依存する。
既存のLRレギュレーションは複雑で、あるいは1つ以上の追加のハイパーパラメータを手動で調整する必要がある。
この研究は、内在的な勾配の変化によってのみLRが自動的に更新される方法を明らかにする。
- 参考スコア(独自算出の注目度): 12.836088204932842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning is trained by stochastic gradient descent (SGD), whose performance critically depends on how the learning rate (LR) is adjusted and decreased over time. Yet existing LR regimes may be intricate, or need to tune one or more additional hyper-parameters manually whose bottlenecks include huge computational expenditure, time and power in practice. This work, in a natural and direct manner, clarifies how LR should be updated automatically only according to the intrinsic variation of stochastic gradients. An explainable LR regime by leveraging stochastic second-order algorithms is developed, behaving a similar pattern to heuristic algorithms but implemented simply without any parameter tuning requirement, where it is of an automatic procedure that LR should increase (decrease) as the norm of stochastic gradients decreases (increases). The resulting LR regime shows its efficiency, robustness, and scalability in different classical stochastic algorithms, containing SGD, SGDM, and SIGNSGD, on machine learning tasks.
- Abstract(参考訳): 現代の機械学習は確率勾配降下(SGD)によって訓練され、その性能は学習速度(LR)が時間とともにどのように調整され減少するかに大きく依存する。
しかし、既存のLRレギュレーションは複雑で、あるいは、大きな計算支出、時間、実効力を含むボトルネックを持つ1つ以上の追加のハイパーパラメータを手動で調整する必要があるかもしれない。
この研究は自然かつ直接的な方法で、内在的な確率勾配の変化に応じてのみLRが自動的に更新される方法を明らかにする。
確率的勾配のノルムが減少する(増加)につれてLRが増加(減少)する自動手順であるため、パラメータチューニング要求を一切必要とせず、ヒューリスティックアルゴリズムに類似したパターンを具現化して、確率的二階アルゴリズムを利用した説明可能なLR体制を開発した。
SGD、SGDM、SIGNSGDを含む古典確率的アルゴリズムでは、機械学習タスクにおける効率性、堅牢性、スケーラビリティを示す。
関連論文リスト
- A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。
簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ
我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文 参考訳(メタデータ) (2025-06-18T15:10:38Z) - AutoSGD: Automatic Learning Rate Selection for Stochastic Gradient Descent [58.05410015124021]
本稿では,SGD法であるAutoSGDを紹介する。
実験結果から,従来の最適化問題や機械学習タスクにおいて,この手法の強い性能が示唆された。
論文 参考訳(メタデータ) (2025-05-27T18:25:21Z) - Efficient Differentiable Approximation of Generalized Low-rank Regularization [64.73416824444328]
低ランク正規化(LRR)は様々な機械学習タスクに広く応用されている。
本稿では,LRRの効率的な微分可能近似を提案する。
論文 参考訳(メタデータ) (2025-05-21T11:49:17Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - On the Weight Dynamics of Deep Normalized Networks [5.250288418639077]
ディープニューラルネットワークの層間の効果的な学習率(ELR)の相違は、トレーニング容易性に悪影響を及ぼす可能性がある。
正規化層を持つネットワークの重み力学をモデル化することにより、これらの相違が時間とともにどのように進化するかを定式化する。
一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。
論文 参考訳(メタデータ) (2023-06-01T14:09:52Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Convergence of ease-controlled Random Reshuffling gradient Algorithms under Lipschitz smoothness [0.0]
非常に多くのスムーズで可能な非サイズの関数の平均を考慮し、この問題に対処するために2つの広く最小限のフレームワークを使用します。
IG/RRスキームの簡易制御による修正を定義する。
我々は、完全なバッチ勾配(L-BFGS)とIG/RR手法の実装の両方で実装を証明し、アルゴリズムが同様の計算作業を必要とすることを証明した。
論文 参考訳(メタデータ) (2022-12-04T15:26:36Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文 参考訳(メタデータ) (2020-07-29T01:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。