論文の概要: NOVAK: Unified adaptive optimizer for deep neural networks
- arxiv url: http://arxiv.org/abs/2601.07876v1
- Date: Sun, 11 Jan 2026 13:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.885953
- Title: NOVAK: Unified adaptive optimizer for deep neural networks
- Title(参考訳): NOVAK:ディープニューラルネットワークのための統一適応最適化器
- Authors: Sergii Kavun,
- Abstract要約: NOVAKは、適応モーメント推定、修正学習率スケジューリング、デカップリングウェイト正規化、ネステロフ運動量の複数変種、ルックアヘッド同期を統一されたパフォーマンス指向のフレームワークに統合する勾配に基づく最適化アルゴリズムである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces NOVAK, a modular gradient-based optimization algorithm that integrates adaptive moment estimation, rectified learning-rate scheduling, decoupled weight regularization, multiple variants of Nesterov momentum, and lookahead synchronization into a unified, performance-oriented framework. NOVAK adopts a dual-mode architecture consisting of a streamlined fast path designed for production. The optimizer employs custom CUDA kernels that deliver substantial speedups (3-5 for critical operations) while preserving numerical stability under standard stochastic-optimization assumptions. We provide fully developed mathematical formulations for rectified adaptive learning rates, a memory-efficient lookahead mechanism that reduces overhead from O(2p) to O(p + p/k), and the synergistic coupling of complementary optimization components. Theoretical analysis establishes convergence guarantees and elucidates the stability and variance-reduction properties of the method. Extensive empirical evaluation on CIFAR-10, CIFAR-100, ImageNet, and ImageNette demonstrates NOVAK superiority over 14 contemporary optimizers, including Adam, AdamW, RAdam, Lion, and Adan. Across architectures such as ResNet-50, VGG-16, and ViT, NOVAK consistently achieves state-of-the-art accuracy, and exceptional robustness, attaining very high accuracy on VGG-16/ImageNette demonstrating superior architectural robustness compared to contemporary optimizers. The results highlight that NOVAKs architectural contributions (particularly rectification, decoupled decay, and hybrid momentum) are crucial for reliable training of deep plain networks lacking skip connections, addressing a long-standing limitation of existing adaptive optimization methods.
- Abstract(参考訳): この研究は、適応モーメント推定、修正学習率スケジューリング、非結合重み正規化、ネステロフ運動量の複数変種、ルックアヘッド同期を統一されたパフォーマンス指向のフレームワークに統合するモジュラー勾配に基づく最適化アルゴリズムであるNOVAKを導入する。
NOVAKは生産用に設計された高速経路を合理化したデュアルモードアーキテクチャを採用している。
このオプティマイザは、標準的な確率最適化仮定の下で数値安定性を保ちながら、かなりのスピードアップ(クリティカルオペレーションでは3-5)を提供するカスタムCUDAカーネルを使用する。
本稿では,修正適応学習率の数学的定式化,O(2p)からO(p + p/k)へのオーバーヘッドを低減するメモリ効率の高いルックアヘッド機構,相補的最適化成分の相乗的結合について述べる。
理論的解析は収束の保証を確立し、その方法の安定性と分散還元特性を解明する。
CIFAR-10、CIFAR-100、ImageNet、ImageNetteの大規模な実験により、Adam、AdamW、RAdam、Lion、Adanを含む14の現代オプティマイザよりもNOVAKが優れていることが示された。
ResNet-50、VGG-16、ViTのようなアーキテクチャ全体において、NOVAKは一貫して最先端の精度と例外的な堅牢性を達成し、現代のオプティマイザよりも優れたアーキテクチャのロバスト性を示すVGG-16/ImageNetteにおいて非常に高い精度を実現している。
その結果、NOVAKのアーキテクチャ貢献(特に整合性、疎結合性、ハイブリッド運動量)は、スキップ接続を欠いたディーププレーンネットワークの信頼性トレーニングに不可欠であり、既存の適応最適化手法の長期的制限に対処している。
関連論文リスト
- ROOT: Robust Orthogonalized Optimizer for Neural Network Training [47.05662448082334]
大規模言語モデル(LLM)は、特にモデルのスケーリングがインプレクションやトレーニングの不安定性に対する感受性を悪化させるため、依然として重要な課題である。
我々は,特定の行列サイズに合わせた反復によるロバスト性を高める次元ロバスト化手法を開発した。
第2に,有意な方向を保ちながら外周雑音を抑制する最適化ロバスト化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:48:05Z) - Slice-Wise Initial State Optimization to Improve Cost and Accuracy of the VQE on Lattice Models [0.0]
本稿では,適応型および物理インスピレーション型アンザッツ設計を組み合わせた変分量子固有解器(VQE)の最適化手法を提案する。
この準力学的アプローチは、演算子選択のオーバーヘッドを回避しつつ、表現性とハードウェア効率を保っている。
最大20キュービットの1次元および2次元ハイゼンベルクおよびハバードモデルのベンチマークでは、固定層VQEと比較して、忠実度の改善、機能評価の削減、あるいはその両方が示されている。
論文 参考訳(メタデータ) (2025-09-16T12:52:23Z) - FMDConv: Fast Multi-Attention Dynamic Convolution via Speed-Accuracy Trade-off [12.900580256269155]
本稿では,FMDConv(Fast Multi-Attention Dynamic Convolution)を提案する。
CIFAR-10、CIFAR-100、ImageNetの実験では、FMDConvはResNet-18では最大49.8%、ResNet-50では42.2%の計算コストを削減している。
論文 参考訳(メタデータ) (2025-03-21T20:23:32Z) - Regularized Adaptive Momentum Dual Averaging with an Efficient Inexact Subproblem Solver for Training Structured Neural Network [9.48424754175943]
本稿では、構造化ニューラルネットワークのトレーニングのための正規化適応モーメントデュアル平均化(RAMDA)を提案する。
定常収束点における正則化器によって誘導される理想構造が得られることを示す。
この構造は収束点付近で局所的に最適であるため、RAMDAは可能な限り最高の構造が得られることが保証される。
論文 参考訳(メタデータ) (2024-03-21T13:43:49Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Nesterov Meets Optimism: Rate-Optimal Separable Minimax Optimization [108.35402316802765]
本稿では,新しい一階最適化アルゴリズムであるAcceleratedGradient-OptimisticGradient (AG-OG) Ascentを提案する。
我々はAG-OGが様々な設定に対して最適収束率(定数まで)を達成することを示す。
アルゴリズムを拡張して設定を拡張し、bi-SC-SCとbi-C-SCの両方で最適な収束率を達成する。
論文 参考訳(メタデータ) (2022-10-31T17:59:29Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Steepest Descent Neural Architecture Optimization: Escaping Local
Optimum with Signed Neural Splitting [60.97465664419395]
我々は、局所最適性問題に対処する分割降下フレームワークの顕著で驚くべき拡張を開発する。
分割時の正と負の両方の重みを単純に許すことで、S2Dにおける分裂安定性の出現を排除できる。
我々は,CIFAR-100, ImageNet, ModelNet40 といった,S2D などの先進的なニューラルネットワークの精度とエネルギー効率の学習方法よりも優れている,様々な挑戦的なベンチマーク上で,本手法を検証する。
論文 参考訳(メタデータ) (2020-03-23T17:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。