論文の概要: Generalization Bound of Gradient Flow through Training Trajectory and Data-dependent Kernel
- arxiv url: http://arxiv.org/abs/2506.11357v1
- Date: Thu, 12 Jun 2025 23:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.607365
- Title: Generalization Bound of Gradient Flow through Training Trajectory and Data-dependent Kernel
- Title(参考訳): 学習軌道とデータ依存カーネルによる勾配流れの一般化境界
- Authors: Yilan Chen, Zhichao Wang, Wei Huang, Andi Han, Taiji Suzuki, Arya Mazumdar,
- Abstract要約: 我々は、カーネル法における古典的ラデマッハ複雑性と整合する勾配流の一般化を確立する。
NTKのような静的カーネルとは異なり、LPKはトレーニング軌跡全体をキャプチャし、データと最適化の両方に適応する。
- 参考スコア(独自算出の注目度): 55.82768375605861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based optimization methods have shown remarkable empirical success, yet their theoretical generalization properties remain only partially understood. In this paper, we establish a generalization bound for gradient flow that aligns with the classical Rademacher complexity bounds for kernel methods-specifically those based on the RKHS norm and kernel trace-through a data-dependent kernel called the loss path kernel (LPK). Unlike static kernels such as NTK, the LPK captures the entire training trajectory, adapting to both data and optimization dynamics, leading to tighter and more informative generalization guarantees. Moreover, the bound highlights how the norm of the training loss gradients along the optimization trajectory influences the final generalization performance. The key technical ingredients in our proof combine stability analysis of gradient flow with uniform convergence via Rademacher complexity. Our bound recovers existing kernel regression bounds for overparameterized neural networks and shows the feature learning capability of neural networks compared to kernel methods. Numerical experiments on real-world datasets validate that our bounds correlate well with the true generalization gap.
- Abstract(参考訳): 勾配に基づく最適化手法は顕著な経験的成功を示しているが、理論的な一般化特性は部分的にしか理解されていない。
本稿では、RKHS法則に基づくカーネルメソッドと、ロスパスカーネル(LPK)と呼ばれるデータ依存カーネルによるカーネルトレースに基づくカーネルメソッドの古典的ラデマッハ複雑性境界と整合した勾配流の一般化を確立する。
NTKのような静的カーネルとは異なり、LPKはトレーニング軌跡全体をキャプチャし、データと最適化のダイナミクスの両方に適応し、より厳密でより情報的な一般化を保証する。
さらに、最適化軌道に沿ったトレーニング損失勾配のノルムが最終一般化性能にどのように影響するかを強調した。
我々の証明における重要な技術的要素は、勾配流の安定性解析と、ラデマッハの複雑性による一様収束とを組み合わせることである。
我々の境界は、オーバーパラメータ化されたニューラルネットワークの既存のカーネル回帰境界を復元し、カーネル法と比較してニューラルネットワークの特徴学習能力を示す。
実世界のデータセットに関する数値実験は、我々の境界が真の一般化ギャップとよく相関していることを検証する。
関連論文リスト
- Kernel Sum of Squares for Data Adapted Kernel Learning of Dynamical Systems from Data: A global optimization approach [0.19999259391104385]
本稿では,Kernel Sum of Squares (KSOS) 法の適用について検討する。
従来のカーネルベースの手法は、最適なベースカーネルの選択とパラメータチューニングにしばしば苦労する。
KSOSは、カーネルベースのサロゲート関数を持つグローバル最適化フレームワークを活用することで、これらの問題を緩和する。
論文 参考訳(メタデータ) (2024-08-12T19:32:28Z) - Learning Analysis of Kernel Ridgeless Regression with Asymmetric Kernel Learning [33.34053480377887]
本稿では,局所適応バンド幅(LAB)RBFカーネルを用いたカーネルリッジレスレグレッションを強化する。
初めて、LAB RBFカーネルから学習した関数は、Reproducible Kernel Hilbert Spaces (RKHSs) の積分空間に属することを示した。
論文 参考訳(メタデータ) (2024-06-03T15:28:12Z) - Generalization Error Curves for Analytic Spectral Algorithms under Power-law Decay [13.803850290216257]
本稿では,カーネル勾配勾配法における一般化誤差曲線の完全な特徴付けを行う。
ニューラル・タンジェント・カーネル理論により、これらの結果は広義のニューラルネットワークを訓練する際の一般化行動の理解を大幅に改善する。
論文 参考訳(メタデータ) (2024-01-03T08:00:50Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。