論文の概要: NysAct: A Scalable Preconditioned Gradient Descent using Nystrom Approximation
- arxiv url: http://arxiv.org/abs/2506.08360v1
- Date: Tue, 10 Jun 2025 02:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.160082
- Title: NysAct: A Scalable Preconditioned Gradient Descent using Nystrom Approximation
- Title(参考訳): NysAct: Nystrom近似を用いたスケーラブルなプレコンディショニンググラディエントDescent
- Authors: Hyunseok Seung, Jaewoo Lee, Hyunsuk Ko,
- Abstract要約: スケーラブルな一階勾配プレコンディショニング手法であるNysActを導入する。
NysActは1次法と2次法の両方と比較して精度が向上していることを示す。
- 参考スコア(独自算出の注目度): 7.512116180634991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient methods are computationally efficient and converge quickly, but they often suffer from poor generalization. In contrast, second-order methods enhance convergence and generalization but typically incur high computational and memory costs. In this work, we introduce NysAct, a scalable first-order gradient preconditioning method that strikes a balance between state-of-the-art first-order and second-order optimization methods. NysAct leverages an eigenvalue-shifted Nystrom method to approximate the activation covariance matrix, which is used as a preconditioning matrix, significantly reducing time and memory complexities with minimal impact on test accuracy. Our experiments show that NysAct not only achieves improved test accuracy compared to both first-order and second-order methods but also demands considerably less computational resources than existing second-order methods. Code is available at https://github.com/hseung88/nysact.
- Abstract(参考訳): アダプティブ勾配法は計算的に効率的であり、急速に収束するが、しばしば一般化の貧弱さに悩まされる。
対照的に、二階法は収束と一般化を高めるが、通常は高い計算とメモリコストを発生させる。
本研究では,最先端の1次最適化手法と2次最適化手法のバランスをとる,スケーラブルな1次勾配前処理手法であるNysActを紹介する。
NysActは固有値シフトしたNystrom法を利用して、前処理行列として使用されるアクティベーション共分散行列を近似し、テスト精度に最小限の影響で時間とメモリの複雑さを著しく低減する。
実験の結果,NysActは1次法と2次法の両方と比較して精度が向上するだけでなく,既存の2次法に比べて計算資源がかなり少ないことがわかった。
コードはhttps://github.com/hseung88/nysact.comで入手できる。
関連論文リスト
- Towards Practical Second-Order Optimizers in Deep Learning: Insights from Fisher Information Analysis [0.0]
本稿では、ディープニューラルネットワーク(DNN)のための新しい適応2階チューニングであるAdaFisherを紹介する。
AdaFisherは、改良された収束と2階法の一般化と、訓練に必要な計算効率とのギャップを埋めることを目的としている。
我々はAdaFisherが精度と収束速度の両方で最先端の近似より優れていることを示す。
論文 参考訳(メタデータ) (2025-04-26T05:02:21Z) - FUSE: First-Order and Second-Order Unified SynthEsis in Stochastic Optimization [9.909119107223265]
一階法と二階法は全く異なる状況にある。
本稿では,一階法と二階法の両方を統一的なアルゴリズムフレームワークで活用する新しい手法を提案する。
FUSE-PVは、第1次と第2次を切り替える単純な最適化手法である。
論文 参考訳(メタデータ) (2025-03-06T08:30:18Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - A Computationally Efficient Sparsified Online Newton Method [48.78646010774149]
Sparsified Online Newton (SONew) はメモリ効率の良い2次アルゴリズムである。
最大で30%の高速化,3.4%の妥当性向上,80%のトレーニング損失の相対的改善を実現しています。
論文 参考訳(メタデータ) (2023-11-16T18:44:22Z) - Rethinking SIGN Training: Provable Nonconvex Acceleration without First-
and Second-Order Gradient Lipschitz [66.22095739795068]
符号ベースの手法は、パラメータ更新にのみ符号情報を使用するにもかかわらず、堅牢な性能を達成する能力によって注目されている。
符号に基づく手法の現在の収束解析は、一階加速度と二階加速度の強い仮定に依存する。
本稿では,より現実的な第1次および第2次加速度の仮定の下で,それらの収束を解析する。
論文 参考訳(メタデータ) (2023-10-23T06:48:43Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Nystrom Method for Accurate and Scalable Implicit Differentiation [25.29277451838466]
我々は,Nystrom法が他の手法と同等あるいは優れた性能を連続的に達成していることを示す。
提案手法は数値的な不安定さを回避し,反復を伴わない行列演算で効率的に計算できる。
論文 参考訳(メタデータ) (2023-02-20T02:37:26Z) - Explicit Second-Order Min-Max Optimization Methods with Optimal Convergence Guarantee [86.05440220344755]
我々は,非制約のmin-max最適化問題のグローバルなサドル点を求めるために,不正確な正規化ニュートン型手法を提案し,解析する。
提案手法は有界集合内に留まるイテレートを生成し、その反復は制限関数の項で$O(epsilon-2/3)$内の$epsilon$-saddle点に収束することを示す。
論文 参考訳(メタデータ) (2022-10-23T21:24:37Z) - Stochastic Gradient Methods with Preconditioned Updates [47.23741709751474]
このような問題に対するアルゴリズムはいくつかあるが、既存の手法は、スケールが悪く、あるいは条件が悪ければ、しばしばうまく機能しない。
ここではハッチンソンの対角ヘッセン近似のアプローチに基づく前提条件を含む。
我々は滑らかさとPL条件が仮定されるときの収束性を証明する。
論文 参考訳(メタデータ) (2022-06-01T07:38:08Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。