論文の概要: Structured Preconditioners in Adaptive Optimization: A Unified Analysis
- arxiv url: http://arxiv.org/abs/2503.10537v1
- Date: Thu, 13 Mar 2025 16:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:49.445644
- Title: Structured Preconditioners in Adaptive Optimization: A Unified Analysis
- Title(参考訳): 適応最適化における構造付きプレコンディショナー:統一解析
- Authors: Shuo Xie, Tianhao Wang, Sashank Reddi, Sanjiv Kumar, Zhiyuan Li,
- Abstract要約: 本稿では,構造化プレコンディショナーを用いた適応最適化アルゴリズムの多種多様なクラスに対する新しい統一解析法を提案する。
我々の分析は、対角 AdaGrad, full-matrix AdaGrad, AdaGrad-Norm など、いくつかの重要な事前条件付きアルゴリズムにマッチングレートを提供する。
片側シャンプーはAdaGradよりも比較的安価であり、理論上も実験上も優れていることを示す。
- 参考スコア(独自算出の注目度): 30.17859434112402
- License:
- Abstract: We present a novel unified analysis for a broad class of adaptive optimization algorithms with structured (e.g., layerwise, diagonal, and kronecker-factored) preconditioners for both online regret minimization and offline convex optimization. Our analysis not only provides matching rate to several important structured preconditioned algorithms including diagonal AdaGrad, full-matrix AdaGrad, and AdaGrad-Norm, but also gives an improved convergence rate for a one-sided variant of Shampoo over that of original Shampoo. Interestingly, more structured preconditioners (e.g., diagonal Adagrad, AdaGrad-Norm which use less space and compute) are often presented as computationally efficient approximations to full-matrix Adagrad, aiming for improved optimization performance through better approximations. Our unified analysis challenges this prevailing view and reveals, perhaps surprisingly, that more structured preconditioners, despite using less space and computation per step, can outperform their less structured counterparts. To demonstrate this, we show that one-sided Shampoo, which is relatively much cheaper than full-matrix AdaGrad could outperform it both theoretically and experimentally.
- Abstract(参考訳): 本稿では,オンライン後悔最小化とオフライン凸最適化の両面において,構造化された(層状,斜め,クローネッカー駆動)プリコンディショナーを用いた適応最適化アルゴリズムの統一化について述べる。
我々の分析は、対角 AdaGrad, full-matrix AdaGrad, AdaGrad-Norm を含むいくつかの重要な事前条件付きアルゴリズムに一致する速度を提供するだけでなく、元のシャンプーよりも一方的なシャンプー変種に対する収束率も向上する。
興味深いことに、より構造化されたプレコンディショナー(例えば、空間と計算の少ない対角アダグラード、AdaGrad-Norm)は、より優れた近似により最適化性能を向上させることを目的とした、完全行列アダグラードに対する計算効率の良い近似としてしばしば提示される。
我々の統合分析は、この一般的な見解に挑戦し、おそらく意外なことに、より構造化されたプレコンディショナーは、1ステップあたりの空間と計算量が少なくても、より構造化されていないプレコンディショナーよりも優れていることを明らかにしている。
これを示すために,片面シャンプーはAdaGradよりも比較的安価であり,理論上も実験上も優れていることを示した。
関連論文リスト
- A Novel Unified Parametric Assumption for Nonconvex Optimization [53.943470475510196]
非最適化は機械学習の中心であるが、一般の非凸性は弱い収束を保証するため、他方に比べて悲観的すぎる。
非凸アルゴリズムに新しい統一仮定を導入する。
論文 参考訳(メタデータ) (2025-02-17T21:25:31Z) - Provably Faster Algorithms for Bilevel Optimization via Without-Replacement Sampling [96.47086913559289]
勾配に基づくアルゴリズムはバイレベル最適化に広く用いられている。
本研究では,より高速な収束率を実現する非置換サンプリングに基づくアルゴリズムを提案する。
合成および実世界の両方のアプリケーションに対してアルゴリズムを検証する。
論文 参考訳(メタデータ) (2024-11-07T17:05:31Z) - SequentialAttention++ for Block Sparsification: Differentiable Pruning Meets Combinatorial Optimization [22.888876901031043]
ニューラルネットワークプルーニングは、大規模で拡張性があり、解釈可能で、一般化可能なモデルを構築するための重要な技術である。
群スパース最適化の非正規化として,既存の微分可能なプルーニング手法がいくつあるかを示す。
我々は、ImageNetとCriteoデータセット上の大規模ニューラルネットワークブロックワイドプルーニングタスクの最先端技術であるSequentialAttention++を提案する。
論文 参考訳(メタデータ) (2024-02-27T21:42:18Z) - Linearization Algorithms for Fully Composite Optimization [61.20539085730636]
本稿では,完全合成最適化問題を凸コンパクト集合で解くための一階アルゴリズムについて検討する。
微分可能および非微分可能を別々に扱い、滑らかな部分のみを線形化することで目的の構造を利用する。
論文 参考訳(メタデータ) (2023-02-24T18:41:48Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。