論文の概要: Learning Dynamics of Zeroth-Order Optimization: A Kernel Perspective
- arxiv url: http://arxiv.org/abs/2605.03373v1
- Date: Tue, 05 May 2026 05:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.776612
- Title: Learning Dynamics of Zeroth-Order Optimization: A Kernel Perspective
- Title(参考訳): ゼロ階最適化の学習ダイナミクス:カーネルの視点から
- Authors: Zhe Li, Bicheng Ying, Zidong Liu, Haibo Yang,
- Abstract要約: 最近の研究の活発化は、大規模言語モデルにZOメソッドを適用することに成功していることを示している。
実験的なニューラルタンジェントカーネル(eNTK)が学習行動を管理する重要な用語として現れるZO SGDの一段階学習ダイナミクスを導出する。
このカーネルベースのフレームワークは、動的学習の文脈内でZOメソッドを理解するための新しい視点を提供すると考えている。
- 参考スコア(独自算出の注目度): 8.18887614959892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical optimization theory establishes that zeroth-order (ZO) algorithms suffer from a dimension-dependent slowdown, with convergence rates typically scaling with the model dimension compared to first-order methods. However, in contrast to these theoretical expectations, a growing body of recent work demonstrates the successful application of ZO methods to fine-tuning Large Language Models (LLMs) with billions of parameters. To explain this paradox, we derive the one-step learning dynamics of ZO SGD, where the empirical Neural Tangent Kernel (eNTK) naturally emerges as the key term governing the learning behavior. Inspection of the eNTK produced by ZO SGD reveals that each element corresponds to the inner product of neural tangent vectors projected onto a random low-dimensional subspace. Thus, by invoking the Johnson-Lindenstrauss Lemma, our analysis shows that the fidelity of the ZO eNTK is governed primarily by the number of perturbations. Crucially, the approximation error depends on the model output size rather than the massive parameter dimension. This dimension-free property provides a theoretical justification for the scalability of ZO methods to LLMs finetuning tasks. We believe that this kernel-based framework offers a novel perspective for understanding ZO methods within the context of learning dynamics.
- Abstract(参考訳): 古典最適化理論では、ゼロ階法(ZO)アルゴリズムは次元依存的な減速に悩まされ、収束速度は典型的には1階法と比較してモデル次元とスケールする。
しかし、これらの理論的な期待とは対照的に、近年の一連の研究は、数十億のパラメータを持つ大規模言語モデル(LLM)へのZO法の適用の成功を実証している。
このパラドックスを説明するために、ZO SGDの一段階学習力学を導出し、経験的ニューラルタンジェントカーネル(eNTK)が学習行動を管理する重要な用語として自然に現れる。
ZO SGDによって生成されたeNTKの検査により、各要素はランダムな低次元部分空間に投影されるニューラル接ベクトルの内積に対応することが明らかになった。
したがって、Johnson-Lindenstrauss Lemmaを呼び出すことで、ZO eNTKの忠実度は主に摂動の数によって支配されることを示す。
重要なことに、近似誤差は、巨大なパラメータ次元ではなく、モデル出力サイズに依存する。
この次元自由性は、ZO法をLLMの微調整タスクに拡張する理論的な正当性を与える。
このカーネルベースのフレームワークは、動的学習の文脈内でZOメソッドを理解するための新しい視点を提供すると考えている。
関連論文リスト
- Model Evolution Under Zeroth-Order Optimization: A Neural Tangent Kernel Perspective [33.99966177443865]
ニューラルゼロ階数カーネル(NZK)を導入し,ZO更新の下で関数空間のモデル進化を記述する。
予測されたNZKがトレーニングを通して一定であり、ランダムな摂動方向の第1モーメントと第2モーメントに明示的に依存していることを証明する。
論文 参考訳(メタデータ) (2026-03-22T11:14:53Z) - Deriving Hyperparameter Scaling Laws via Modern Optimization Theory [55.63126290312615]
線形最小化Oracle(LMO)に基づく手法の最近の一階境界について検討する。
近年の文献のバウンダリをプロキシとして扱い、異なるチューニング規則をまたいでそれらを最小化することで、学習率、運動量、バッチサイズに関するクローズドフォームのパワーロースケジュールが得られる。
本研究の結果は, 運動量とバッチサイズスケーリングの相互作用に特に注意を払っており, いくつかのスケーリング戦略によって最適性能が達成される可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-16T22:21:27Z) - ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - A joint optimization approach to identifying sparse dynamics using least squares kernel collocation [70.13783231186183]
本研究では,通常の微分方程式(ODE)の学習システムを,状態の不足,部分的,ノイズの多い観測から学習するためのオール・アット・オンス・モデリング・フレームワークを開発する。
提案手法は,関数ライブラリ上でのODEのスパースリカバリ戦略とカーネルヒルベルト空間(RKHS)理論による状態推定とODEの離散化の手法を組み合わせたものである。
論文 参考訳(メタデータ) (2025-11-23T18:04:15Z) - Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文 参考訳(メタデータ) (2025-10-22T18:01:07Z) - Modeling Latent Neural Dynamics with Gaussian Process Switching Linear Dynamical Systems [2.170477444239546]
ガウス過程スイッチング線形力学系(gpSLDS)の2つの目的をバランスさせるアプローチを開発する。
我々の手法は、非線形力学をガウス過程(GP-SDE)で記述した微分方程式による潜在状態の進化をモデル化した以前の研究に基づいている。
本手法は, 離散状態境界近傍の力学における人工振動など, rSLDS の重要な限界を解消するとともに, 力学の後方不確かさを推定する。
論文 参考訳(メタデータ) (2024-07-19T15:32:15Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Designing Universal Causal Deep Learning Models: The Case of Infinite-Dimensional Dynamical Systems from Stochastic Analysis [7.373617024876726]
解析におけるいくつかの非線形作用素は、現代のニューラル作用素によって利用されていない時間構造に依存している。
本稿では,無限次元線形距離空間を適切に扱うディープラーニングモデル設計フレームワークを提案する。
我々のフレームワークはコンパクトな集合や任意の有限時間地平線 H" や滑らかなトレースクラス作用素に対して均一に近似できることを示す。
論文 参考訳(メタデータ) (2022-10-24T14:43:03Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。