Fugu-MT 論文翻訳(概要): Towards Understanding Generalization via Decomposing Excess Risk Dynamics

論文の概要: Towards Understanding Generalization via Decomposing Excess Risk Dynamics

arxiv url: http://arxiv.org/abs/2106.06153v1
Date: Fri, 11 Jun 2021 03:42:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-14 14:37:14.400715
Title: Towards Understanding Generalization via Decomposing Excess Risk Dynamics
Title（参考訳）: 過剰リスクダイナミクスの分解による一般化の理解に向けて
Authors: Jiaye Teng, Jianhao Ma, Yang Yuan
Abstract要約: 一般化力学を解析してアルゴリズム依存境界(安定性など)を導出する。ニューラルネットは、ノイズの嵌合時に緩やかな収束率を示すという観測から着想を得て、余剰リスクダイナミクスを分解することを提案する。分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。
参考スコア（独自算出の注目度）: 13.4379473119565
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalization is one of the critical issues in machine learning. However, traditional methods like uniform convergence are not powerful enough to fully explain generalization because they may yield vacuous bounds even in overparameterized linear regression regimes. An alternative solution is to analyze the generalization dynamics to derive algorithm-dependent bounds, e.g., stability. Unfortunately, the stability-based bound is still far from explaining the remarkable generalization ability of neural networks due to the coarse-grained analysis of the signal and noise. Inspired by the observation that neural networks show a slow convergence rate when fitting noise, we propose decomposing the excess risk dynamics and applying stability-based bound only on the variance part (which measures how the model performs on pure noise). We provide two applications for the framework, including a linear case (overparameterized linear regression with gradient descent) and a non-linear case (matrix recovery with gradient flow). Under the decomposition framework, the new bound accords better with the theoretical and empirical evidence compared to the stability-based bound and uniform convergence bound.
Abstract（参考訳）: 一般化は機械学習における重要な問題の1つだ。しかし、一様収束のような伝統的な手法は、過度にパラメータ化された線形回帰状態においても空境界が得られるため、一般化を完全に説明できるほど強力ではない。別の解決策は、アルゴリズム依存境界(例えば安定性)を導出するための一般化ダイナミクスを分析することである。残念ながら、安定性に基づく境界は、信号とノイズの粗い解析のために、ニューラルネットワークの顕著な一般化能力を説明するには程遠い。ニューラルネットワークがノイズに適合するときの収束速度が遅いという観測に触発されて,過剰なリスクダイナミクスを分解し,分散部(モデルが純粋なノイズに対してどのように作用するかを測定する)にのみ安定性に基づく境界を適用することを提案する。このフレームワークには線形ケース(勾配降下を伴う過パラメータ線形回帰)と非線形ケース(勾配流れを伴う行列回復)の2つの応用がある。分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。

関連論文リスト

Generalization Bound of Gradient Flow through Training Trajectory and Data-dependent Kernel [55.82768375605861]
我々は、カーネル法における古典的ラデマッハ複雑性と整合する勾配流の一般化を確立する。 NTKのような静的カーネルとは異なり、LPKはトレーニング軌跡全体をキャプチャし、データと最適化の両方に適応する。
論文参考訳（メタデータ） (2025-06-12T23:17:09Z)
Neural Contraction Metrics with Formal Guarantees for Discrete-Time Nonlinear Dynamical Systems [17.905596843865705]
収縮メトリクスは、様々な力学系の安定性、堅牢性、収束性を分析する強力なフレームワークを提供する。しかしながら、複雑な非線形系に対するこれらの指標の同定は、効果的なツールが欠如しているため、未解決の課題である。本稿では,離散的スケーラブル非線形システムに対する検証可能な収縮指標について述べる。
論文参考訳（メタデータ） (2025-04-23T21:27:32Z)
Stability Bounds for the Unfolded Forward-Backward Algorithm [13.537414663819971]
劣化演算子が線形で知られている逆問題を解決するために設計されたニューラルネットワークアーキテクチャを考察する。入力摂動に対する逆法のロバスト性は理論的に解析される。我々の研究の重要な新規性は、そのバイアスの摂動に対する提案されたネットワークの堅牢性を調べることである。
論文参考訳（メタデータ） (2024-12-23T11:55:41Z)
Stability properties of gradient flow dynamics for the symmetric low-rank matrix factorization problem [22.648448759446907]
多くの学習課題において,低ランク因子化がビルディングブロックとして機能することを示す。ダイナミクスの局所的な探索部分に関連する軌跡の形状に関する新たな知見を提供する。
論文参考訳（メタデータ） (2024-11-24T20:05:10Z)
Generalization in Kernel Regression Under Realistic Assumptions [41.345620270267446]
共通カーネルや任意の正規化、ノイズ、任意の入力次元、サンプル数に対して厳密な境界を提供する。以上の結果から,高入力次元における過剰適合,固定次元におけるほぼ誘電過剰適合,正規化回帰に対する明示的な収束率が示唆された。副産物として、カーネルシステムで訓練されたニューラルネットワークの時間依存境界を得る。
論文参考訳（メタデータ） (2023-12-26T10:55:20Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文参考訳（メタデータ） (2023-01-29T20:54:03Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
Towards Data-Algorithm Dependent Generalization: a Case Study on Overparameterized Linear Regression [19.047997113063147]
本稿では,データ依存学習軌跡全体の一般化挙動を考察したデータ-アルゴリズム整合性の概念を提案する。我々は、データ依存軌道解析を行い、そのような環境での互換性に十分な条件を導出する。
論文参考訳（メタデータ） (2022-02-12T12:42:36Z)
A Priori Denoising Strategies for Sparse Identification of Nonlinear Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-01-29T23:31:25Z)
Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは経験的に過剰フィットを防げる中心的存在ですこの研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文参考訳（メタデータ） (2021-03-23T17:15:53Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)
On dissipative symplectic integration with applications to gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文参考訳（メタデータ） (2020-04-15T00:36:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。