論文の概要: Towards Understanding Generalization via Decomposing Excess Risk
Dynamics
- arxiv url: http://arxiv.org/abs/2106.06153v1
- Date: Fri, 11 Jun 2021 03:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:37:14.400715
- Title: Towards Understanding Generalization via Decomposing Excess Risk
Dynamics
- Title(参考訳): 過剰リスクダイナミクスの分解による一般化の理解に向けて
- Authors: Jiaye Teng, Jianhao Ma, Yang Yuan
- Abstract要約: 一般化力学を解析してアルゴリズム依存境界(安定性など)を導出する。
ニューラルネットは、ノイズの嵌合時に緩やかな収束率を示すという観測から着想を得て、余剰リスクダイナミクスを分解することを提案する。
分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。
- 参考スコア(独自算出の注目度): 13.4379473119565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization is one of the critical issues in machine learning. However,
traditional methods like uniform convergence are not powerful enough to fully
explain generalization because they may yield vacuous bounds even in
overparameterized linear regression regimes. An alternative solution is to
analyze the generalization dynamics to derive algorithm-dependent bounds, e.g.,
stability. Unfortunately, the stability-based bound is still far from
explaining the remarkable generalization ability of neural networks due to the
coarse-grained analysis of the signal and noise. Inspired by the observation
that neural networks show a slow convergence rate when fitting noise, we
propose decomposing the excess risk dynamics and applying stability-based bound
only on the variance part (which measures how the model performs on pure
noise). We provide two applications for the framework, including a linear case
(overparameterized linear regression with gradient descent) and a non-linear
case (matrix recovery with gradient flow). Under the decomposition framework,
the new bound accords better with the theoretical and empirical evidence
compared to the stability-based bound and uniform convergence bound.
- Abstract(参考訳): 一般化は機械学習における重要な問題の1つだ。
しかし、一様収束のような伝統的な手法は、過度にパラメータ化された線形回帰状態においても空境界が得られるため、一般化を完全に説明できるほど強力ではない。
別の解決策は、アルゴリズム依存境界(例えば安定性)を導出するための一般化ダイナミクスを分析することである。
残念ながら、安定性に基づく境界は、信号とノイズの粗い解析のために、ニューラルネットワークの顕著な一般化能力を説明するには程遠い。
ニューラルネットワークがノイズに適合するときの収束速度が遅いという観測に触発されて,過剰なリスクダイナミクスを分解し,分散部(モデルが純粋なノイズに対してどのように作用するかを測定する)にのみ安定性に基づく境界を適用することを提案する。
このフレームワークには線形ケース(勾配降下を伴う過パラメータ線形回帰)と非線形ケース(勾配流れを伴う行列回復)の2つの応用がある。
分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。
関連論文リスト
- Stability properties of gradient flow dynamics for the symmetric low-rank matrix factorization problem [22.648448759446907]
多くの学習課題において,低ランク因子化がビルディングブロックとして機能することを示す。
ダイナミクスの局所的な探索部分に関連する軌跡の形状に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2024-11-24T20:05:10Z) - Generalization in Kernel Regression Under Realistic Assumptions [41.345620270267446]
共通カーネルや任意の正規化、ノイズ、任意の入力次元、サンプル数に対して厳密な境界を提供する。
以上の結果から,高入力次元における過剰適合,固定次元におけるほぼ誘電過剰適合,正規化回帰に対する明示的な収束率が示唆された。
副産物として、カーネルシステムで訓練されたニューラルネットワークの時間依存境界を得る。
論文 参考訳(メタデータ) (2023-12-26T10:55:20Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Towards Data-Algorithm Dependent Generalization: a Case Study on
Overparameterized Linear Regression [19.047997113063147]
本稿では,データ依存学習軌跡全体の一般化挙動を考察したデータ-アルゴリズム整合性の概念を提案する。
我々は、データ依存軌道解析を行い、そのような環境での互換性に十分な条件を導出する。
論文 参考訳(メタデータ) (2022-02-12T12:42:36Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。