論文の概要: Changing the Kernel During Training Leads to Double Descent in Kernel Regression
- arxiv url: http://arxiv.org/abs/2311.01762v3
- Date: Fri, 16 May 2025 08:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:10.780769
- Title: Changing the Kernel During Training Leads to Double Descent in Kernel Regression
- Title(参考訳): カーネル回帰におけるトレーニング中のカーネルの変化
- Authors: Oskar Allerbo,
- Abstract要約: 帯域幅をゼロにすることで便宜上、モデル選択の必要性を回避できる。
この知見をニューラルネットワークに適用し、トレーニング中にニューラルタンジェントカーネル(NTK)を変更することで、NTKが帯域幅をゼロに減らしているかのように振る舞うことができることを示した。
- 参考スコア(独自算出の注目度): 1.5229257192293204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate changing the bandwidth of a translational-invariant kernel during training when solving kernel regression with gradient descent. We present a theoretical bound on the out-of-sample generalization error that advocates for decreasing the bandwidth (and thus increasing the model complexity) during training. We further use the bound to show that kernel regression exhibits a double descent behavior when the model complexity is expressed as the minimum allowed bandwidth during training. Decreasing the bandwidth all the way to zero results in benign overfitting, and also circumvents the need for model selection. We demonstrate the double descent behavior on real and synthetic data and also demonstrate that kernel regression with a decreasing bandwidth outperforms that of a constant bandwidth, selected by cross-validation or marginal likelihood maximization. We finally apply our findings to neural networks, demonstrating that by modifying the neural tangent kernel (NTK) during training, making the NTK behave as if its bandwidth were decreasing to zero, we can make the network overfit more benignly, and converge in fewer iterations.
- Abstract(参考訳): 本研究では, 勾配勾配によるカーネル回帰の解法において, 学習中のトランスレーショナル不変カーネルの帯域幅の変化について検討する。
我々は、トレーニング中に帯域幅を減少させる(従ってモデルの複雑さを増大させる)ことを提唱する、サンプル外一般化誤差に理論的拘束力を与える。
さらに、トレーニング中の最小帯域幅としてモデル複雑性が表現された場合、カーネル回帰が二重降下挙動を示すことを示すために、このバウンダリを使用する。
帯域幅をゼロにすることで便宜上、モデル選択の必要性を回避できる。
実データと合成データに二重降下挙動を示すとともに、帯域幅の減少によるカーネル回帰が、クロスバリデーションまたは限界極大化によって選択された一定の帯域幅よりも優れていることを示す。
最終的にニューラルネットワークに適用し、トレーニング中にニューラルタンジェントカーネル(NTK)を変更することで、NTKがその帯域幅をゼロに減らしているかのように振る舞うことによって、ネットワークの過度な適合性を向上し、より少ないイテレーションに収束させることができることを実証した。
関連論文リスト
- Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - Learning Analysis of Kernel Ridgeless Regression with Asymmetric Kernel Learning [33.34053480377887]
本稿では,局所適応バンド幅(LAB)RBFカーネルを用いたカーネルリッジレスレグレッションを強化する。
初めて、LAB RBFカーネルから学習した関数は、Reproducible Kernel Hilbert Spaces (RKHSs) の積分空間に属することを示した。
論文 参考訳(メタデータ) (2024-06-03T15:28:12Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Controlling the Inductive Bias of Wide Neural Networks by Modifying the Kernel's Spectrum [18.10812063219831]
所望の固有値を持つカーネルに改良スペクトルカーネル(MSK)を導入する。
本研究では,勾配勾配の軌道を変化させる事前条件付き勾配降下法を提案する。
私たちの手法は計算効率が良く、実装も簡単です。
論文 参考訳(メタデータ) (2023-07-26T22:39:47Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Bandwidth Selection for Gaussian Kernel Ridge Regression via Jacobian
Control [1.5229257192293204]
本稿では,ジャコビアン制御に基づく閉形式,フェザーライト,帯域幅選択を提案する。
実データと合成データを比較した結果,モデル性能は最大6桁の精度で比較できることがわかった。
論文 参考訳(メタデータ) (2022-05-24T10:36:05Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Optimal Rates of Distributed Regression with Imperfect Kernels [0.0]
本研究では,分散カーネルの分散化について,分割法と分割法を用いて検討する。
ノイズフリー環境では,カーネルリッジ回帰がN-1$よりも高速に実現できることを示す。
論文 参考訳(メタデータ) (2020-06-30T13:00:16Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。