論文の概要: Learning Provably Improves the Convergence of Gradient Descent
- arxiv url: http://arxiv.org/abs/2501.18092v3
- Date: Mon, 19 May 2025 07:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:51.951607
- Title: Learning Provably Improves the Convergence of Gradient Descent
- Title(参考訳): 学習がグラディエントDescenceの収束性を改善する
- Authors: Qingyu Song, Wei Lin, Hong Xu,
- Abstract要約: 我々は L2O が自身の収束ハイライトに対する理論的裏付けを欠いていることを示す。
我々はL2Oモデルの収束を証明して、そのギャップを経験的に橋渡しする。
そこで我々は,勾配爆発を緩和し,理論結果の支持と拡張最適化を促進する戦略を提案する。
- 参考スコア(独自算出の注目度): 9.82454981262489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learn to Optimize (L2O) trains deep neural network based solvers for optimization, achieving success in accelerating convex problems and improving non-convex solutions. However, L2O lacks rigorous theoretical backing for its own training convergence, as existing analyses often use unrealistic assumptions -- a gap this work highlights empirically. We bridge this gap by proving the training convergence of L2O models that learn Gradient Descent (GD) hyperparameters for quadratic programming, leveraging the Neural Tangent Kernel (NTK) theory. We propose a deterministic initialization strategy to support our theoretical results and promote stable training over extended optimization horizons by mitigating gradient explosion. Our L2O framework demonstrates over 50\% better optimality against GD and superior robustness over state-of-the-art L2O methods on synthetic datasets.
- Abstract(参考訳): 最適化(L2O)を学ぶ 最適化のためにディープニューラルネットワークベースのソルバを訓練し、凸問題を加速し、非凸ソリューションを改善することに成功した。
しかし、既存の分析では非現実的な仮定を使うことが多いため、L2Oは自身のトレーニング収束に対する厳密な理論的裏付けを欠いている。
ニューラル・タンジェント・カーネル(NTK)理論を利用して、グラディエント・ディフレッシュ(GD)ハイパーパラメータを学習するL2Oモデルのトレーニング収束性を証明することで、このギャップを橋渡しする。
我々は,我々の理論結果を支持する決定論的初期化戦略を提案し,勾配爆発を緩和することにより,拡張最適化地平線上での安定したトレーニングを促進する。
我々のL2Oフレームワークは、GDに対する50倍以上の最適化と、合成データセットの最先端L2O法よりも優れた堅牢性を示す。
関連論文リスト
- Gradient Alignment in Physics-informed Neural Networks: A Second-Order Optimization Perspective [12.712238596012742]
損失項間の方向性衝突に対処するための理論的および実践的なアプローチを提案する。
これらの矛盾が一階法にどのように制限されているかを示し、二階最適化が自然にそれらを解決することを示す。
我々は,最近提案された準ニュートン法であるSOAPが,ヘッセンのプレコンディショナーを効率的に近似していることを証明する。
論文 参考訳(メタデータ) (2025-02-02T00:21:45Z) - Linearly Convergent Mixup Learning [0.0]
より広い範囲のバイナリ分類モデルに拡張する2つの新しいアルゴリズムを提案する。
勾配に基づくアプローチとは異なり、我々のアルゴリズムは学習率のようなハイパーパラメータを必要とせず、実装と最適化を単純化する。
我々のアルゴリズムは、降下勾配法と比較して最適解への高速収束を実現し、ミックスアップデータの増大は、様々な損失関数の予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-01-14T02:33:40Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Versatile Single-Loop Method for Gradient Estimator: First and Second
Order Optimality, and its Application to Federated Learning [45.78238792836363]
本稿では,SLEDGE (Single-Loop-E Gradient Estimator) という単一ループアルゴリズムを提案する。
既存の手法とは異なり、SLEDGEは、(ii)2階最適、(ii)PL領域における、(iii)少ないデータ以下の複雑さの利点を持つ。
論文 参考訳(メタデータ) (2022-09-01T11:05:26Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - Gradient Descent Averaging and Primal-dual Averaging for Strongly Convex
Optimization [15.731908248435348]
強凸の場合の勾配降下平均化と主双進平均化アルゴリズムを開発する。
一次二重平均化は出力平均化の観点から最適な収束率を導出し、SC-PDAは最適な個々の収束を導出する。
SVMとディープラーニングモデルに関するいくつかの実験は、理論解析の正確性とアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2020-12-29T01:40:30Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - BAMSProd: A Step towards Generalizing the Adaptive Optimization Methods
to Deep Binary Model [34.093978443640616]
最近のBNN(Binary Neural Networks)の性能は大幅に低下している。
BNNの効果的かつ効率的なトレーニングを保証することは未解決の問題である。
そこで本研究では,BAMSProdアルゴリズムを用いて,深部二元モデルの収束特性が量子化誤差と強く関連していることを示す。
論文 参考訳(メタデータ) (2020-09-29T06:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。