論文の概要: A generalization gap estimation for overparameterized models via the
Langevin functional variance
- arxiv url: http://arxiv.org/abs/2112.03660v3
- Date: Mon, 20 Mar 2023 00:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 05:30:37.158506
- Title: A generalization gap estimation for overparameterized models via the
Langevin functional variance
- Title(参考訳): ランジュバン関数分散による過パラメータモデルの一般化ギャップ推定
- Authors: Akifumi Okuno, Keisuke Yano
- Abstract要約: 関数分散は過パラメータ設定においても一般化ギャップを特徴付けることを示す。
本稿では,関数分散の効率的な近似,関数分散のランゲヴィン近似(Langevin FV)を提案する。
- 参考スコア(独自算出の注目度): 6.231304401179968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper discusses the estimation of the generalization gap, the difference
between generalization performance and training performance, for
overparameterized models including neural networks. We first show that a
functional variance, a key concept in defining a widely-applicable information
criterion, characterizes the generalization gap even in overparameterized
settings where a conventional theory cannot be applied. As the computational
cost of the functional variance is expensive for the overparameterized models,
we propose an efficient approximation of the function variance, the Langevin
approximation of the functional variance (Langevin FV). This method leverages
only the $1$st-order gradient of the squared loss function, without referencing
the $2$nd-order gradient; this ensures that the computation is efficient and
the implementation is consistent with gradient-based optimization algorithms.
We demonstrate the Langevin FV numerically by estimating the generalization
gaps of overparameterized linear regression and non-linear neural network
models, containing more than a thousand of parameters therein.
- Abstract(参考訳): 本稿では,ニューラルネットワークを含む過パラメータモデルに対する一般化ギャップの推定,一般化性能とトレーニング性能の差について論じる。
まず, 関数分散は, 広く適用可能な情報基準を定義する上で重要な概念であり, 従来の理論が適用できない過パラメータ設定においても一般化ギャップを特徴付ける。
過パラメータモデルでは関数分散の計算コストが高価であるため,関数分散の効率的な近似,関数分散のランジュバン近似(langevin fv)を提案する。
この手法は2次勾配を考慮せずに2次損失関数の1ドル階勾配のみを利用するため、計算が効率的で、勾配に基づく最適化アルゴリズムと整合性が保証される。
我々は,1000以上のパラメータを含む過パラメータ線形回帰モデルと非線形ニューラルネットワークモデルの一般化ギャップを推定し,Langevin FVを数値的に示す。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Neural Parameter Regression for Explicit Representations of PDE Solution Operators [22.355460388065964]
偏微分方程式(PDE)の解演算子を学習するための新しいフレームワークであるニューラル回帰(NPR)を導入する。
NPRは、ニューラルネットワーク(NN)パラメータを回帰するために、Physics-Informed Neural Network (PINN, Raissi et al., 2021) 技術を使用している。
このフレームワークは、新しい初期条件と境界条件に顕著な適応性を示し、高速な微調整と推論を可能にした。
論文 参考訳(メタデータ) (2024-03-19T14:30:56Z) - Optimal Nonlinearities Improve Generalization Performance of Random
Features [0.9790236766474201]
非線形活性化関数を持つランダム特徴モデルは、訓練および一般化誤差の観点からガウスモデルと実演的に等価であることが示されている。
ガウスモデルから取得したパラメータが最適非線形性の集合を定義できることを示す。
最適化された非線形性はReLUのような広く使われている非線形関数よりも優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T20:55:21Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Support estimation in high-dimensional heteroscedastic mean regression [2.28438857884398]
ランダムな設計と、潜在的にヘテロセダスティックで重み付きエラーを伴う線形平均回帰モデルを考える。
我々は,問題のパラメータに依存するチューニングパラメータを備えた,厳密な凸・滑らかなHuber損失関数の変種を用いる。
得られた推定器に対して、$ell_infty$ノルムにおける符号一貫性と最適収束率を示す。
論文 参考訳(メタデータ) (2020-11-03T09:46:31Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - On the Estimation of Derivatives Using Plug-in Kernel Ridge Regression
Estimators [4.392844455327199]
非パラメトリック回帰における単純なプラグインカーネルリッジ回帰(KRR)推定器を提案する。
我々は,提案した推定器の挙動を統一的に研究するために,非漸近解析を行う。
提案した推定器は、導関数の任意の順序に対するチューニングパラメータを同じ選択で最適収束率を達成する。
論文 参考訳(メタデータ) (2020-06-02T02:32:39Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。