論文の概要: Model Evolution Under Zeroth-Order Optimization: A Neural Tangent Kernel Perspective
- arxiv url: http://arxiv.org/abs/2603.21169v1
- Date: Sun, 22 Mar 2026 11:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.270606
- Title: Model Evolution Under Zeroth-Order Optimization: A Neural Tangent Kernel Perspective
- Title(参考訳): ゼロ階最適化下のモデル進化:ニューラル・タンジェント・カーネル・パースペクティブ
- Authors: Chen Zhang, Yuxin Cheng, Chenchen Ding, Shuqi Wang, Jingreng Lei, Runsheng Yu, Yik-Chung WU, Ngai Wong,
- Abstract要約: ニューラルゼロ階数カーネル(NZK)を導入し,ZO更新の下で関数空間のモデル進化を記述する。
予測されたNZKがトレーニングを通して一定であり、ランダムな摂動方向の第1モーメントと第2モーメントに明示的に依存していることを証明する。
- 参考スコア(独自算出の注目度): 33.99966177443865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zeroth-order (ZO) optimization enables memory-efficient training of neural networks by estimating gradients via forward passes only, eliminating the need for backpropagation. However, the stochastic nature of gradient estimation significantly obscures the training dynamics, in contrast to the well-characterized behavior of first-order methods under Neural Tangent Kernel (NTK) theory. To address this, we introduce the Neural Zeroth-order Kernel (NZK) to describe model evolution in function space under ZO updates. For linear models, we prove that the expected NZK remains constant throughout training and depends explicitly on the first and second moments of the random perturbation directions. This invariance yields a closed-form expression for model evolution under squared loss. We further extend the analysis to linearized neural networks. Interpreting ZO updates as kernel gradient descent via NZK provides a novel perspective for potentially accelerating convergence. Extensive experiments across synthetic and real-world datasets (including MNIST, CIFAR-10, and Tiny ImageNet) validate our theoretical results and demonstrate acceleration when using a single shared random vector.
- Abstract(参考訳): ゼロオーダー(ZO)最適化は、フォワードパスのみを介して勾配を推定し、バックプロパゲーションを不要にすることで、ニューラルネットワークのメモリ効率のトレーニングを可能にする。
しかし、勾配推定の確率的性質は、ニューラル・タンジェント・カーネル(NTK)理論の下での1次法の良好な挙動とは対照的に、トレーニング力学を著しく曖昧にしている。
これを解決するために、ZO更新の下で関数空間におけるモデル進化を記述するために、Neural Zeroth-order Kernel (NZK)を導入する。
線形モデルでは、予測されたNZKがトレーニングを通して一定であり、ランダム摂動方向の第1モーメントと第2モーメントに明示的に依存していることが証明される。
この不変性は、正方形損失の下でのモデル進化のための閉形式表現をもたらす。
線形化されたニューラルネットワークに解析をさらに拡張する。
ZO更新をNZKによるカーネル勾配降下として解釈することは、潜在的収束を加速する新しい視点を提供する。
合成および実世界のデータセット(MNIST、CIFAR-10、Tiny ImageNetを含む)にわたる大規模な実験は、我々の理論結果を検証し、単一の共有ランダムベクトルを使用する際の加速度を実証する。
関連論文リスト
- Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration [67.12978375116599]
勾配降下(GD)のステップが一般化されたパーセプトロンアルゴリズムのステップに還元されることを示す。
これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
論文 参考訳(メタデータ) (2025-12-12T14:16:35Z) - Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - How many Neurons do we need? A refined Analysis for Shallow Networks
trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。
非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文 参考訳(メタデータ) (2023-09-14T22:10:28Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Controlling the Inductive Bias of Wide Neural Networks by Modifying the Kernel's Spectrum [18.10812063219831]
所望の固有値を持つカーネルに改良スペクトルカーネル(MSK)を導入する。
本研究では,勾配勾配の軌道を変化させる事前条件付き勾配降下法を提案する。
私たちの手法は計算効率が良く、実装も簡単です。
論文 参考訳(メタデータ) (2023-07-26T22:39:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Weighted Neural Tangent Kernel: A Generalized and Improved
Network-Induced Kernel [20.84988773171639]
Neural Tangent Kernel(NTK)は、勾配降下によって訓練された過剰パラメーターニューラルネットワーク(NN)の進化を記述することで、近年、激しい研究を惹きつけている。
Weighted Neural Tangent Kernel (WNTK) は、一般化された改良されたツールであり、異なる勾配の下でパラメータ化されたNNのトレーニングダイナミクスをキャプチャすることができる。
提案する重み更新アルゴリズムでは,実験値と解析値の両方が,数値実験において対応するntkを上回っている。
論文 参考訳(メタデータ) (2021-03-22T03:16:20Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。