論文の概要: Scale-Invariant Neural Network Optimization: Norm Geometry and Heavy-Tailed Noise
- arxiv url: http://arxiv.org/abs/2605.18528v1
- Date: Mon, 18 May 2026 15:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.897173
- Title: Scale-Invariant Neural Network Optimization: Norm Geometry and Heavy-Tailed Noise
- Title(参考訳): スケール不変ニューラルネットワーク最適化:ノーム幾何学と重音
- Authors: Jiayu Zhang, Tianyi Lin,
- Abstract要約: スペクトルノルムを持つスケール不変の1次法は$(minm, n-frac3p-2p-1)の呼び出しを必要とすることを示す。
我々は、標準がスペクトルであり、ヘシアンがリプシッツであるとき、バッチ法が$(minm, n-frac5p2p-2p-2)$のマッチング境界を達成することを証明した。
- 参考スコア(独自算出の注目度): 12.977441534320041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing lesson from neural network optimization is that optimizer design should respect how the model is parametrized. Scale-invariant methods become important because their normalized layerwise updates can not only support hyperparameter transfer across model sizes but exploit input-output matrix norm geometry. At the same time, stochastic gradient noises in deep learning are often far from sub-Gaussian and may exhibit heavy tails. These crucial observations have shaped recent algorithmic principles for training neural networks, yet their joint theoretical consequences remain underexplored. In particular, it is unclear what dimension dependence is unavoidable for scale-invariant methods with general input-output matrix norm, and whether higher-order smoothness can accelerate training under heavy-tailed noise. We study these questions through nonconvex smooth stochastic optimization over $\mathbb{R}^{m\times n}$ with general norms, where the goal is to achieve an $ε$-stationary point under $p^{\mathrm{th}}$-moment heavy-tailed noise. Our first contribution is a dimension-dependent lower bound: when $\frac{\max\{m,n\}}{(\min\{m,n\})^2}$ is large enough, any scale-invariant first-order method with spectral norm requires $Ω(\min\{m, n\}ε^{-\frac{3p-2}{p-1}})$ oracle calls. We prove that a batched Scion method with spectral norm achieves the matching upper bound of $O(\min\{m, n\}ε^{-\frac{3p-2}{p-1}})$. To exploit higher-order smoothness, we propose a transported Scion method and improve the bound to $O(\min\{m, n\}ε^{-\frac{5p-3}{2p-2}})$ when the norm is spectral and the Hessian is Lipschitz. Finally, we incorporate practical heuristics into our transported method and evaluate it across multiple architectures and model sizes, demonstrating its flexibility and compatibility in training neural networks.
- Abstract(参考訳): ニューラルネットワーク最適化からの教訓は、オプティマイザ設計はモデルをパラメータ化する方法を尊重するべきだ、ということだ。
モデルサイズを越えたハイパーパラメータ転送をサポートするだけでなく、入力出力行列のノルム幾何を利用するため、スケール不変の手法が重要となる。
同時に、深層学習における確率的勾配雑音は、しばしばガウス以南から遠く離れており、重く尾が現れることがある。
これらの決定的な観測は、ニューラルネットワークを訓練するアルゴリズムの原理を形作っているが、それらの共同理論的な結果は未解明のままである。
特に、一般的な入力出力行列ノルムを持つスケール不変法では、どの次元依存が避けられないのか、高次の滑らかさが重み付き雑音下でのトレーニングを加速できるかどうかは不明である。
一般ノルム付き$\mathbb{R}^{m\times n}$上の非凸な滑らかな確率的最適化を通してこれらの問題を研究し、そこでは、$p^{\mathrm{th}}$-moment 重み付き雑音の下で$ε$定常点を達成することが目的である。
私たちの最初の寄与は次元に依存した下界である: $\frac{\max\{m,n\}}{(\min\{m,n\})^2}$ が十分大きいとき、スペクトルノルムを持つスケール不変な一階法は$Ω(\min\{m,n\}ε^{-\frac{3p-2}{p-1}})$ oracle call を必要とする。
スペクトルノルムを持つバッチ化されたシオン法が、一致する上限である$O(\min\{m, n\}ε^{-\frac{3p-2}{p-1}})$を達成することを証明した。
高次滑らか性を利用するために、輸送されたシオン法を提案し、ノルムがスペクトルでヘシアンがリプシッツであるとき、$O(\min\{m, n\}ε^{-\frac{5p-3}{2p-2}})へのバウンドを改善する。
最後に、輸送された手法に実用的ヒューリスティックスを取り入れ、複数のアーキテクチャとモデルサイズにわたって評価し、ニューラルネットワークのトレーニングにおける柔軟性と互換性を実証する。
関連論文リスト
- Towards Scalable Persistence-Based Topological Optimization [44.16669776030478]
永続性に基づく位相最適化は、点クラウド $X の部分集合 mathbbRd$ を $L(X) = ell(mathrmDgm(X))$ という形の目的を最小化することによって変形する。
実際、最適化は2つの結合した問題によって制限される: 永続ホモロジーは典型的にはサブサンプル上で計算され、結果として生じる位相勾配は非常にスパースであり、非ゼロ更新を受けるアンカーポイントはわずかである。
論文 参考訳(メタデータ) (2026-05-09T15:47:20Z) - Nonconvex Stochastic Optimization under Heavy-Tailed Noises: Optimal Convergence without Gradient Clipping [21.865728815935665]
重み付き雑音下での最初の収束を提供するが、切断はしない。
また、テールインデックス$mathfrakp$が事前に不明な場合には、最初の$mathcalO(Tfrac1-mathfrakp3mathfrakp-2)$収束率も設定する。
論文 参考訳(メタデータ) (2024-12-27T08:46:46Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。