論文の概要: Canonical Regularisation of Wide Feature-Learning Neural Networks
- arxiv url: http://arxiv.org/abs/2605.18180v1
- Date: Mon, 18 May 2026 10:23:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.393534
- Title: Canonical Regularisation of Wide Feature-Learning Neural Networks
- Title(参考訳): 広域特徴学習ニューラルネットワークの正準正規化
- Authors: George Whittle, Pranav Vaidhyanathan, Juliusz Ziomek, Natalia Ares, Maike A. Osborne,
- Abstract要約: 特徴学習ネットワークは、カーネル登録ネットワークよりもはるかに少ない。
リッジ規則化は特徴学習型ネットワークにおける勾配流に偏りがあることが示される。
また,測地線尾根へのミニマックスローバストでスケーラブルなサロゲートとしてアーク隆起を提案する。
- 参考スコア(独自算出の注目度): 1.5581032465072868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wide neural networks in the feature-learning regime drive modern deep learning, and yet they remain far less studied than their kernel-regime counterparts. We consider a critical yet under-explored difference between these two regimes: the regulariser and prior implied by gradient flow training. This canonical regularisation property is well-studied in kernel regime networks -- of all the infinite global minima, gradient flow selects exactly the vanishing ridge solution -- and underpins the celebrated NN-GP correspondence, precisely allowing the modelling of noise during training. However, we prove ridge regularisation biases gradient flow in feature-learning regime networks, even in the infinitesimal limit of vanishing regularisation. Over training, ridge distorts the inductive bias of the network, with a particular damage done to pretrained networks where the implicit prior is informative. We resolve this by axiomatising the canonical regulariser as a regime-agnostic function-space energy and lift, which uniquely identifies ridge in the kernel regime, and crucially generalises to the feature-learning regime. By studying the Riemannian geometry of feature-learning networks, we derive geodesic ridge from our framework, generalising ridge to the feature-learning regime. Correspondingly, we prove the canonical function-space prior is a Riemannian Gibbs Process, generalising the more familiar Gaussian Process. As a practical contribution, we propose arc ridge as a minimax-robust, scalable surrogate to geodesic ridge, revealing a deep relationship between early stopping and canonical regularisation across learning regimes. Finally, we demonstrate the consequences of our theory empirically on both image processing and NLP transfer-learning problems.
- Abstract(参考訳): 機能学習体制における広範なニューラルネットワークは、現代のディープラーニングを駆動するが、カーネル登録システムよりもはるかに少ない研究である。
本研究は, 勾配流訓練による正則性と先行性という, 両者の限界的かつ過小評価された相違について考察する。
この標準正規化特性はカーネルシステムネットワーク(無限大のミニマ(英語版))でよく研究されており、勾配流は消滅するリッジソリューションを正確に選択し、トレーニング中のノイズを正確にモデル化できるようにする。
しかし,リッジ正規化は,正規化の無限小極限においても,特徴学習体制網における勾配流の偏りを証明している。
トレーニング中、リッジはネットワークの誘導バイアスを歪め、暗黙の事前情報がある事前訓練されたネットワークに特定のダメージを与える。
我々は、標準正規化器をレギュラー非依存の関数空間エネルギーとリフトとして公理化し、カーネル体制の尾根を独自に同定し、特徴学習体制に決定的に一般化することでこれを解決する。
特徴学習ネットワークのリーマン幾何学の研究により、我々のフレームワークから測地線リッジを導出し、特徴学習体制へのリッジを一般化する。
それに対応して、前述した正準函数空間はリーマン・ギブス過程であり、より精通したガウス過程を一般化する。
実際の貢献として,極小で拡張性の高い測地線尾根への代理材としてアーク隆起を提案し,早期停止と学習体制間の標準正規化の深い関係を明らかにした。
最後に,この理論が画像処理とNLP転送学習の両問題に与える影響を実証的に示す。
関連論文リスト
- Precise gradient descent training dynamics for finite-width multi-layer neural networks [8.057006406834466]
一般多層ニューラルネットワークにおける勾配降下繰り返しの正確な分布解析を行った。
我々の非漸近状態進化理論は、第一層重みのガウス的ゆらぎと深層重みの集中を捉えている。
論文 参考訳(メタデータ) (2025-05-08T02:19:39Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - An Infinite-Width Analysis on the Jacobian-Regularised Training of a Neural Network [10.384951432591492]
深部ニューラルネットワークの無限幅限界における最近の理論的分析により、ネットワークの初期化、特徴学習、トレーニングに対する理解が深まりました。
この無限幅解析は、ディープニューラルネットワークのヤコビアンにまで拡張可能であることを示す。
我々は、広い有限ネットワークに対する理論的主張の関連性を実験的に示し、核回帰解の性質を実験的に解析し、ヤコビアン正則化の洞察を得る。
論文 参考訳(メタデータ) (2023-12-06T09:52:18Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - On Sparsity in Overparametrised Shallow ReLU Networks [42.33056643582297]
無限に広い状態であっても、限られた数のニューロンしか必要としない解を捉えるための異なる正規化戦略の能力について検討する。
オーバーパラメトリゼーションの量に関係なく、両方のスキームは、有限個のニューロンしか持たない関数によって最小化される。
論文 参考訳(メタデータ) (2020-06-18T01:35:26Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。