Fugu-MT 論文翻訳(概要): Provable and Practical Online Learning Rate Adaptation with Hypergradient Descent

論文の概要: Provable and Practical Online Learning Rate Adaptation with Hypergradient Descent

arxiv url: http://arxiv.org/abs/2502.11229v1
Date: Sun, 16 Feb 2025 18:49:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.934888
Title: Provable and Practical Online Learning Rate Adaptation with Hypergradient Descent
Title（参考訳）: 高次老化を伴う確率的・実用的なオンライン学習率適応
Authors: Ya-Chi Chu, Wenzhi Gao, Yinyu Ye, Madeleine Udell,
Abstract要約: 本稿では,過勾配降下法(HDM)の収束特性について検討する。本研究では, 実験的, 理論的支援を伴う最新の適応勾配法の開発に本手法を適用した。
参考スコア（独自算出の注目度）: 19.218484733179356
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper investigates the convergence properties of the hypergradient descent method (HDM), a 25-year-old heuristic originally proposed for adaptive stepsize selection in stochastic first-order methods. We provide the first rigorous convergence analysis of HDM using the online learning framework of [Gao24] and apply this analysis to develop new state-of-the-art adaptive gradient methods with empirical and theoretical support. Notably, HDM automatically identifies the optimal stepsize for the local optimization landscape and achieves local superlinear convergence. Our analysis explains the instability of HDM reported in the literature and proposes efficient strategies to address it. We also develop two HDM variants with heavy-ball and Nesterov momentum. Experiments on deterministic convex problems show HDM with heavy-ball momentum (HDM-HB) exhibits robust performance and significantly outperforms other adaptive first-order methods. Moreover, HDM-HB often matches the performance of L-BFGS, an efficient and practical quasi-Newton method, using less memory and cheaper iterations.
Abstract（参考訳）: 本稿では,確率的一階法における適応的な段数選択のための25歳のヒューリスティックである過次降下法(HDM)の収束特性について検討する。本稿では, [Gao24] のオンライン学習フレームワークを用いたHDMの厳密な収束解析を行い, この分析を適用し, 実証的, 理論的に支援された新しい最先端適応勾配法を開発した。特に、HDMは局所最適化ランドスケープの最適ステップを自動同定し、局所超線形収束を実現する。文献に報告されているHDMの不安定性を解析し,その対処方法を提案する。また、重球運動量とネステロフ運動量を持つ2つのHDM変異体も開発する。決定論的凸問題の実験では、HDMとヘビーボール運動量(HDM-HB)は頑健な性能を示し、他の適応的な一階法よりも大幅に優れていた。さらに、HDM-HBは、より少ないメモリとより安価なイテレーションを用いて、効率よく実用的な準ニュートン法であるL-BFGSの性能とよく一致する。

関連論文リスト

Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW [2.028622227373579]
勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
論文参考訳（メタデータ） (2025-07-01T23:30:15Z)
Unleashing High-Quality Image Generation in Diffusion Sampling Using Second-Order Levenberg-Marquardt-Langevin [19.316680628326406]
拡散ヘッセン幾何学を学習自由な方法で近似する新しいレバンス・マルカルト・ランジュヴィン法(LML)を導入する。このLML近似ヘッセン幾何により、拡散サンプリングによりより正確なステップを実行し、画像生成品質を向上させることができる。
論文参考訳（メタデータ） (2025-05-30T05:21:44Z)
Scalable Min-Max Optimization via Primal-Dual Exact Pareto Optimization [66.51747366239299]
拡張ラグランジアンに基づくmin-max問題のスムーズな変種を提案する。提案アルゴリズムは, 段階的戦略よりも目的数で拡張性が高い。
論文参考訳（メタデータ） (2025-03-16T11:05:51Z)
A Learn-to-Optimize Approach for Coordinate-Wise Step Sizes for Quasi-Newton Methods [9.82454981262489]
LSTMネットワークを用いて最適なステップサイズを学習するL2O(Learning-to-Optimize)手法を提案する。提案手法はスカラーステップサイズ法や過勾配降下法よりも大幅に改善されている。
論文参考訳（メタデータ） (2024-11-25T07:13:59Z)
Neural Projected Quantum Dynamics: a systematic study [0.0]
ニューラル量子状態を用いた大規模システムにおけるユニタリ量子力学のシミュレーションの課題に対処する。この研究は、予測時間依存変分モンテカルロ法(p-tVMC)の包括的な形式化を提供する。
論文参考訳（メタデータ） (2024-10-14T17:01:33Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
ODE-based Learning to Optimize [28.380622776436905]
我々は、慣性系とヘッセン駆動制振方程式(ISHD)を統合した包括的枠組みを提案する。収束・安定条件を考慮した停止時間を最小化することを目的とした新しい学習法(L2O)を定式化する。本フレームワークの実証検証は,多種多様な最適化問題に対する広範な数値実験を通じて行われる。
論文参考訳（メタデータ） (2024-06-04T06:39:45Z)
A Homogenization Approach for Gradient-Dominated Stochastic Optimization [6.1144486886258065]
勾配支配を享受する関数に対する同次二階降下法(SHSOD)を提案する。以上の結果から,SHSODMは勾配優先最適化法において,他の2次法で達成された最もよく知られたサンプルの複雑さと一致していることがわかった。
論文参考訳（メタデータ） (2023-08-21T11:03:04Z)
An Optimization-based Deep Equilibrium Model for Hyperspectral Image Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文参考訳（メタデータ） (2023-06-10T08:25:16Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
An Accelerated Doubly Stochastic Gradient Method with Faster Explicit Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文参考訳（メタデータ） (2022-08-11T22:27:22Z)
Adaptive Learning Rates for Faster Stochastic Gradient Methods [6.935471115003109]
いくつかの2次凸勾配法を改善するための適応的なステップサイズ戦略を提案する。最初の方法は古典的なPolyakのステップサイズ(Polyak, 1987)に基づいており、この手法の最近の発展の延長である。第2の手法であるGraDSは「勾配の多様性」によってステップサイズを再スケールする
論文参考訳（メタデータ） (2022-08-10T11:36:00Z)
An Adaptive Alternating-direction-method-based Nonnegative Latent Factor Model [2.857044909410376]
交互方向法に基づく非負潜在因子モデルにより、高次元および不完全行列への効率的な表現学習を行うことができる。本稿では,超パラメータ適応を粒子群最適化の原理に従って実装した適応交互方向法に基づく非負遅延因子モデルを提案する。産業応用によって生成される非負のHDI行列に関する実証的研究は、A2NLFが計算および記憶効率においていくつかの最先端モデルより優れており、HDI行列の欠落データに対する高い競合推定精度を維持していることを示している。
論文参考訳（メタデータ） (2022-04-11T03:04:26Z)
Last-Iterate Convergence of Saddle-Point Optimizers via High-Resolution Differential Equations [83.3201889218775]
広く使われている1次サドル点最適化法は、帰納的導出時に同一の連続時間常微分方程式(ODE)を導出する。しかし、これらの方法の収束特性は、単純な双線型ゲームでさえ質的に異なる。いくつかのサドル点最適化法のための微分方程式モデルの設計に流体力学の研究フレームワークを採用する。
論文参考訳（メタデータ） (2021-12-27T18:31:34Z)
A Dynamical Systems Approach for Convergence of the Bayesian EM Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文参考訳（メタデータ） (2020-06-23T01:34:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。