論文の概要: A Learn-to-Optimize Approach for Coordinate-Wise Step Sizes for Quasi-Newton Methods
- arxiv url: http://arxiv.org/abs/2412.00059v2
- Date: Mon, 19 May 2025 07:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.321651
- Title: A Learn-to-Optimize Approach for Coordinate-Wise Step Sizes for Quasi-Newton Methods
- Title(参考訳): 準ニュートン法におけるコーディネート・ワイズ・ステップの学習・最適化手法
- Authors: Wei Lin, Qingyu Song, Hong Xu,
- Abstract要約: LSTMネットワークを用いて最適なステップサイズを学習するL2O(Learning-to-Optimize)手法を提案する。
提案手法はスカラーステップサイズ法や過勾配降下法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 9.82454981262489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tuning step sizes is crucial for the stability and efficiency of optimization algorithms. While adaptive coordinate-wise step sizes have been shown to outperform scalar step size in first-order methods, their use in second-order methods is still under-explored and more challenging. Current approaches, including hypergradient descent and cutting plane methods, offer limited improvements or encounter difficulties in second-order contexts. To address these limitations, we first conduct a theoretical analysis within the Broyden-Fletcher-Goldfarb-Shanno (BFGS) framework, a prominent quasi-Newton method, and derive sufficient conditions for coordinate-wise step sizes that ensure convergence and stability. Building on this theoretical foundation, we introduce a novel learn-to-optimize (L2O) method that employs LSTM-based networks to learn optimal step sizes by leveraging insights from past optimization trajectories, while inherently respecting the derived theoretical guarantees. Extensive experiments demonstrate that our approach achieves substantial improvements over scalar step size methods and hypergradient descent-based method, offering up to 4$\times$ faster convergence across diverse optimization tasks.
- Abstract(参考訳): 最適化アルゴリズムの安定性と効率性には、ステップサイズをチューニングすることが不可欠である。
適応的な座標のステップサイズは、一階法ではスカラーステップサイズよりも優れていることが示されているが、二階法では、まだ未探索であり、より難しい。
過勾配降下法や切断平面法を含む現在のアプローチは、2階の文脈で限られた改善や困難に遭遇する。
これらの制約に対処するために、まずブロイデン・フレッチャー・ゴールドファーブ・シャンノ(BFGS)フレームワーク内で理論解析を行い、収束と安定性を確保するための座標のステップサイズについて十分な条件を導出する。
この理論基盤を基盤として,LSTMに基づくネットワークを用いた新たな学習最適化(L2O)手法を導入し,過去の最適化軌道からの洞察を生かし,導出した理論的保証を本質的に尊重する。
大規模な実験により,スカラーステップサイズ法や過勾配降下法よりも大幅に改善され,様々な最適化タスクに対して最大4$\times$高速収束が実現された。
関連論文リスト
- Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - An Adaptive Dimension Reduction Estimation Method for High-dimensional
Bayesian Optimization [6.79843988450982]
BOを高次元設定に拡張するための2段階最適化フレームワークを提案する。
私たちのアルゴリズムは、これらのステップを並列またはシーケンスで操作する柔軟性を提供します。
数値実験により,困難シナリオにおける本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-08T16:21:08Z) - SANIA: Polyak-type Optimization Framework Leads to Scale Invariant
Stochastic Algorithms [1.21748738176366]
Adam、AdaGrad、AdaHessianといったテクニックは、対象関数の曲率を組み込むことで、探索が影響を受けるプリコンディショナーを利用する。
本稿では,これらの課題に対処するためにSANIAを提案する。
論文 参考訳(メタデータ) (2023-12-28T21:28:08Z) - Locally Optimal Descent for Dynamic Stepsize Scheduling [45.6809308002043]
本稿では,段階的スケジュールのマニュアルと時間的チューニングを簡略化することを目的とした,理論に基づく新しい動的学習スケジューリング手法を提案する。
本手法は,スムーズな勾配方向の局所最適練習速度を推定することに基づく。
提案手法は,既存手法と比較して最小限のチューニングが必要であることが示唆された。
論文 参考訳(メタデータ) (2023-11-23T09:57:35Z) - Adaptive Learning Rates for Faster Stochastic Gradient Methods [6.935471115003109]
いくつかの2次凸勾配法を改善するための適応的なステップサイズ戦略を提案する。
最初の方法は古典的なPolyakのステップサイズ(Polyak, 1987)に基づいており、この手法の最近の発展の延長である。
第2の手法であるGraDSは「勾配の多様性」によってステップサイズを再スケールする
論文 参考訳(メタデータ) (2022-08-10T11:36:00Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - Bolstering Stochastic Gradient Descent with Model Building [0.0]
勾配降下法とその変種は、優れた収束率を達成するためのコア最適化アルゴリズムを構成する。
本稿では,前方ステップモデル構築に基づく新しいアルゴリズムを用いて,線探索の代替手法を提案する。
提案アルゴリズムは、よく知られたテスト問題において、より高速な収束とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2021-11-13T06:54:36Z) - On Constraints in First-Order Optimization: A View from Non-Smooth
Dynamical Systems [99.59934203759754]
本稿では,スムーズな制約付き最適化のための一階法について紹介する。
提案手法の2つの特徴は、実現可能な集合全体の投影や最適化が避けられることである。
結果として得られるアルゴリズムの手順は、制約が非線形であっても簡単に実装できる。
論文 参考訳(メタデータ) (2021-07-17T11:45:13Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Acceleration Methods [57.202881673406324]
まず2次最適化問題を用いて加速法を2つ導入する。
我々は、ネステロフの精巧な研究から始まる運動量法を詳細に論じる。
我々は、ほぼ最適な収束率に達するための一連の簡単な手法である再起動スキームを議論することで結論付ける。
論文 参考訳(メタデータ) (2021-01-23T17:58:25Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。