論文の概要: Stochastic Gradient Descent with Preconditioned Polyak Step-size
- arxiv url: http://arxiv.org/abs/2310.02093v1
- Date: Tue, 3 Oct 2023 14:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 13:47:39.271920
- Title: Stochastic Gradient Descent with Preconditioned Polyak Step-size
- Title(参考訳): プレコンディショニングしたポリアクステップサイズを有する確率勾配ディフレッシュ
- Authors: Farshed Abdukhakimov, Chulu Xiang, Dmitry Kamzolov, Martin Tak\'a\v{c}
- Abstract要約: Gradient Descent with Polyak Step-size (SPS)は、データセットの学習率を微調整する必要性を軽減する更新ルールを提供する方法である。
本稿では,Hutchinson'sやAda'sなどのプレコンディショニング技術を用いたSPSの拡張を提案する。
- 参考スコア(独自算出の注目度): 1.3300175008796402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) is one of the many iterative optimization
methods that are widely used in solving machine learning problems. These
methods display valuable properties and attract researchers and industrial
machine learning engineers with their simplicity. However, one of the
weaknesses of this type of methods is the necessity to tune learning rate
(step-size) for every loss function and dataset combination to solve an
optimization problem and get an efficient performance in a given time budget.
Stochastic Gradient Descent with Polyak Step-size (SPS) is a method that offers
an update rule that alleviates the need of fine-tuning the learning rate of an
optimizer. In this paper, we propose an extension of SPS that employs
preconditioning techniques, such as Hutchinson's method, Adam, and AdaGrad, to
improve its performance on badly scaled and/or ill-conditioned datasets.
- Abstract(参考訳): Stochastic Gradient Descent (SGD) は、機械学習の問題を解決するために広く使われている多くの反復最適化手法の1つである。
これらの手法は貴重な特性を示し、研究者や産業機械学習エンジニアをシンプルに惹きつける。
しかし, この手法の弱点の1つは, 各損失関数とデータセットの組み合わせの学習率(ステップサイズ)を調整し, 最適化問題を解き, 所定の時間予算で効率的な性能を得る必要があることである。
Stochastic Gradient Descent with Polyak Step-size (SPS)は、オプティマイザの学習速度を微調整する必要性を軽減する更新ルールを提供する方法である。
本稿では,Hutchinson法,Adam法,AdaGrad法などのプレコンディショニング手法を用いたSPSの拡張を提案する。
関連論文リスト
- No learning rates needed: Introducing SALSA -- Stable Armijo Line Search Adaptation [4.45108516823267]
我々は,現在最先端のライン探索手法の問題点を特定し,改良を提案し,その妥当性を厳格に評価する。
我々はこれらの手法を従来よりも桁違いに複雑なデータ領域で評価する。
私たちの作業はPythonパッケージで公開されており、シンプルなPytorchを提供しています。
論文 参考訳(メタデータ) (2024-07-30T08:47:02Z) - Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates [3.6185342807265415]
ディープラーニングアルゴリズムは多くの人工知能(AI)システムにおいて重要な要素である。
ディープラーニングアルゴリズムは通常、勾配降下(SGD)最適化法によって訓練されたディープニューラルネットワークのクラスで構成されている。
論文 参考訳(メタデータ) (2024-07-11T00:10:35Z) - Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses [5.052293146674794]
標準降下(SGD)最適化法は、学習率が0に収束しない場合、アダムのような加速および適応SGD最適化法が収束しないことが知られている。
本研究では,経験的推定に基づいて学習率を調整するSGD最適化手法の学習速度適応手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-06-20T14:07:39Z) - SANIA: Polyak-type Optimization Framework Leads to Scale Invariant
Stochastic Algorithms [1.21748738176366]
Adam、AdaGrad、AdaHessianといったテクニックは、対象関数の曲率を組み込むことで、探索が影響を受けるプリコンディショナーを利用する。
本稿では,これらの課題に対処するためにSANIAを提案する。
論文 参考訳(メタデータ) (2023-12-28T21:28:08Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast
Convergence [30.393999722555154]
本稿では,古典的ポリアクステップサイズ (Polyak, 1987) の亜次法でよく用いられる変種を提案する。
The proposed Polyak step-size (SPS) is a attractive choice for set the learning rate for gradient descent。
論文 参考訳(メタデータ) (2020-02-24T20:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。