論文の概要: PAC-Chernoff Bounds: Understanding Generalization in the Interpolation
Regime
- arxiv url: http://arxiv.org/abs/2306.10947v2
- Date: Wed, 7 Feb 2024 10:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:37:45.455332
- Title: PAC-Chernoff Bounds: Understanding Generalization in the Interpolation
Regime
- Title(参考訳): PAC-Chernoff境界:補間規則の一般化を理解する
- Authors: Andr\'es R. Masegosa and Luis A. Ortega
- Abstract要約: 分布依存型PAC-Chernoff境界は、過度にパラメータ化されたモデルクラスであっても、補間器にとって完全に厳密である。
補間器の一般化が極めて良好である一方で,他の補間器がそうでない場合の統一的理論的説明を提案する。
- 参考スコア(独自算出の注目度): 2.356908851188234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present a distribution-dependent PAC-Chernoff bound that is
perfectly tight for interpolators even under overparametrized model classes.
This bound relies on basic principles of Large Deviation Theory and naturally
provides a characterization of the smoothness of a model described as a simple
real-valued function. Based on this distribution-dependent bound and the novel
definition of smoothness, we propose an unifying theoretical explanation of why
some interpolators generalize remarkably well while others not. And why a wide
range of modern learning techniques (i.e., $\ell_2$-norm,
distance-from-initialization, input-gradient and variance regularization
together with data augmentation, invariant architectures, and
overparameterization) are able to find them. The emergent conclusion is that
all these methods provide complimentary procedures that bias the optimizer to
smoother interpolators, which, according to this theoretical analysis, are the
ones with better generalization error. One of the main insights of this study
is that distribution-dependent bounds serve as a powerful tool better
understand the complex dynamics behind the generalization capabilities of
highly-overparameterized interpolators.
- Abstract(参考訳): 本稿では,過パラメータモデルクラスの下でも補間子にとって完全にタイトな分布依存pac-chernoffバウンドを提案する。
この境界は、大偏差理論の基本原理に依存し、単純実数値関数として記述されたモデルの滑らかさを自然に特徴づける。
この分布依存境界とスムーズさの新たな定義に基づいて, 補間器の一般化が極めて良好である一方で, 他がそうでない理由を統一した理論的説明を提案する。
また、最近の学習技術(例えば$\ell_2$-norm, distance-from-initialization, input-gradient and variance regularization)とデータ拡張、不変アーキテクチャ、過パラメータ化)が、なぜそれらを見つけることができるのか。
創発的な結論は、これらの手法はすべてオプティマイザをより滑らかな補間器に偏らせる補完的手順を提供しており、この理論解析によれば、より一般化誤差のある方法である。
この研究の主な知見の1つは、分布に依存した境界が、高度にパラメータ化された補間器の一般化能力の背後にある複雑なダイナミクスをよりよく理解する強力なツールとなることである。
関連論文リスト
- Trade-off Between Dependence and Complexity for Nonparametric Learning
-- an Empirical Process Approach [10.27974860479791]
データが時間的依存を示す多くのアプリケーションでは、対応する経験的プロセスは理解されていない。
標準的な$beta/rho$-mixingの仮定の下では、経験過程の期待上限に一般化する。
長距離依存下であっても、i.d.設定と同じ速度で達成できることが示される。
論文 参考訳(メタデータ) (2024-01-17T05:08:37Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - An Online Learning Approach to Interpolation and Extrapolation in Domain
Generalization [53.592597682854944]
リスクを最小化するプレイヤーと新しいテストを示す敵の間のオンラインゲームとしてサブグループの一般化を再放送する。
両課題に対してERMは極小最適であることを示す。
論文 参考訳(メタデータ) (2021-02-25T19:06:48Z) - Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition [34.235007566913396]
ラベルに関連付けられた用語への分散の解釈可能で対称的な分解について述べる。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示す。
我々はまた、著しく豊かな現象論も分析する。
論文 参考訳(メタデータ) (2020-11-04T21:04:02Z) - Overparameterization and generalization error: weighted trigonometric
interpolation [4.631723879329972]
本研究では,未知のフーリエ係数を等価試料から推定するランダムフーリエ級数モデルについて検討する。
滑らかな補間物に対する偏りが、重み付き三角法一般化の形でどのようにしてより小さい一般化誤差をもたらすかを正確に示す。
論文 参考訳(メタデータ) (2020-06-15T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。