論文の概要: Stacey: Promoting Stochastic Steepest Descent via Accelerated $\ell_p$-Smooth Nonconvex Optimization
- arxiv url: http://arxiv.org/abs/2506.06606v1
- Date: Sat, 07 Jun 2025 00:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.358576
- Title: Stacey: Promoting Stochastic Steepest Descent via Accelerated $\ell_p$-Smooth Nonconvex Optimization
- Title(参考訳): Stacey: Accelerated $\ell_p$-Smooth Nonconvex Optimization による確率的ステレオディフレッシュの促進
- Authors: Xinyu Luo, Cedar Site Bai, Bolian Li, Petros Drineas, Ruqi Zhang, Brian Bullins,
- Abstract要約: 我々は、非ユークリッドスムーズな最適化タスクを処理するために、Staceyと呼ばれる新しい高速化された$ell_p$急降下アルゴリズムを導入する。
アルゴリズムの基礎に関する理論的保証を提供するのに加えて、我々のアプローチと一般的な手法を実証的に比較する。
- 参考スコア(独自算出の注目度): 15.179519413549086
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While popular optimization methods such as SGD, AdamW, and Lion depend on steepest descent updates in either $\ell_2$ or $\ell_\infty$ norms, there remains a critical gap in handling the non-Euclidean structure observed in modern deep networks training. In this work, we address this need by introducing a new accelerated $\ell_p$ steepest descent algorithm, called Stacey, which uses interpolated primal-dual iterate sequences to effectively navigate non-Euclidean smooth optimization tasks. In addition to providing novel theoretical guarantees for the foundations of our algorithm, we empirically compare our approach against these popular methods on tasks including image classification and language model (LLM) pretraining, demonstrating both faster convergence and higher final accuracy. We further evaluate different values of $p$ across various models and datasets, underscoring the importance and efficiency of non-Euclidean approaches over standard Euclidean methods. Code can be found at https://github.com/xinyuluo8561/Stacey .
- Abstract(参考訳): SGD、AdamW、Lionなどの一般的な最適化手法は、$\ell_2$または$\ell_\infty$ノルムの急勾配更新に依存するが、現代のディープネットワークトレーニングで観察される非ユークリッド構造を扱う際には、重大なギャップが残っている。
そこで本研究では,非ユークリッドスムーズな最適化タスクを効果的にナビゲートするために,補間された原始二元反復列を用いる,Staceyと呼ばれる高速化された$\ell_p$の急降下アルゴリズムを導入することで,このニーズに対処する。
アルゴリズムの基礎となる新しい理論的保証を提供するのに加えて、画像分類や言語モデル(LLM)事前学習といったタスクにおけるこれらの一般的な手法に対する我々のアプローチを実証的に比較し、より高速な収束とより高い最終精度を実証する。
さらに、様々なモデルやデータセットに対して$p$の異なる値を評価し、標準ユークリッド法よりも非ユークリッド的アプローチの重要性と効率性を強調した。
コードはhttps://github.com/xinyuluo8561/Staceyで見ることができる。
関連論文リスト
- Towards Practical Second-Order Optimizers in Deep Learning: Insights from Fisher Information Analysis [0.0]
本稿では、ディープニューラルネットワーク(DNN)のための新しい適応2階チューニングであるAdaFisherを紹介する。
AdaFisherは、改良された収束と2階法の一般化と、訓練に必要な計算効率とのギャップを埋めることを目的としている。
我々はAdaFisherが精度と収束速度の両方で最先端の近似より優れていることを示す。
論文 参考訳(メタデータ) (2025-04-26T05:02:21Z) - FUSE: First-Order and Second-Order Unified SynthEsis in Stochastic Optimization [9.909119107223265]
一階法と二階法は全く異なる状況にある。
本稿では,一階法と二階法の両方を統一的なアルゴリズムフレームワークで活用する新しい手法を提案する。
FUSE-PVは、第1次と第2次を切り替える単純な最適化手法である。
論文 参考訳(メタデータ) (2025-03-06T08:30:18Z) - $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [54.94545757220999]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。
ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-10-29T02:11:45Z) - Faster Acceleration for Steepest Descent [6.972653925522813]
非ユークリッド滑らか性仮定の下での凸最適化のための新しい高速化一階法を提案する。
我々の方法は、一階のオラクルへの呼び出しで最大$O(d1-frac2p)$のイテレーション改善を提供する。
論文 参考訳(メタデータ) (2024-09-28T01:21:03Z) - Fast Nonlinear Two-Time-Scale Stochastic Approximation: Achieving $O(1/k)$ Finite-Sample Complexity [2.5382095320488665]
本稿では,2つの結合非線形作用素の根を探すために,2時間スケールのモノトン近似の新しい変種を開発することを提案する。
私たちのキーとなるアイデアは、古典的なRuppert-Polyak平均化技術を活用して、それらのサンプルを通して演算子を動的に推定することです。
これらの平均ステップの見積値は、望まれる解を見つけるために、2時間スケールの近似更新で使用される。
論文 参考訳(メタデータ) (2024-01-23T13:44:15Z) - A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - SketchySGD: Reliable Stochastic Optimization via Randomized Curvature
Estimates [19.420605210427635]
SketchySGDは、サブサンプルヘッセンに対するランダム化低ランク近似を用いることで、機械学習の既存の勾配法を改善する。
固定段数を持つSketchySGDが最適の周りの小さな球に線形に収束することを理論的に示す。
条件のない設定では、最小二乗問題に対してSketchySGDはSGDよりも高速に収束することを示す。
論文 参考訳(メタデータ) (2022-11-16T01:05:41Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。
本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。