論文の概要: On the Lipschitz Constant of Deep Networks and Double Descent
- arxiv url: http://arxiv.org/abs/2301.12309v4
- Date: Tue, 14 Nov 2023 15:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 19:29:38.322899
- Title: On the Lipschitz Constant of Deep Networks and Double Descent
- Title(参考訳): 深部ネットワークのリプシッツ定数と二重輝線について
- Authors: Matteo Gamba, Hossein Azizpour, M{\aa}rten Bj\"orkman
- Abstract要約: ディープネットワークの一般化誤差に関する既存の境界は、入力変数への滑らかなあるいは有界な依存を仮定する。
二重降下中の深層ネットワークにおける経験的リプシッツ定数に関する実験的検討を行った。
- 参考スコア(独自算出の注目度): 5.381801249240512
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing bounds on the generalization error of deep networks assume some form
of smooth or bounded dependence on the input variable, falling short of
investigating the mechanisms controlling such factors in practice. In this
work, we present an extensive experimental study of the empirical Lipschitz
constant of deep networks undergoing double descent, and highlight
non-monotonic trends strongly correlating with the test error. Building a
connection between parameter-space and input-space gradients for SGD around a
critical point, we isolate two important factors -- namely loss landscape
curvature and distance of parameters from initialization -- respectively
controlling optimization dynamics around a critical point and bounding model
function complexity, even beyond the training data. Our study presents novels
insights on implicit regularization via overparameterization, and effective
model complexity for networks trained in practice.
- Abstract(参考訳): ディープ・ネットワークの一般化誤差に関する既存の境界は、入力変数への滑らかなあるいは有界な依存を前提としており、実際にはそのような要因を制御しているメカニズムを研究できない。
本研究では,二重降下を行う深層ネットワークの経験的リプシッツ定数を広範囲に実験し,テスト誤差に強く相関する非単調傾向に注目した。
臨界点付近でSGDのパラメータ空間と入力空間勾配の接続を構築することで、臨界点周辺での最適化ダイナミクスと、訓練データを超えてもモデル関数の複雑さを制御する2つの重要な因子、すなわち損失ランドスケープ曲率と初期化からの距離を分離する。
本研究は,過パラメータ化による暗黙の正規化に関する新しい知見と,実際に訓練されたネットワークの効果的なモデル複雑性を提案する。
関連論文リスト
- Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust
Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。
パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-10-05T21:44:18Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Conductivity Imaging from Internal Measurements with Mixed Least-Squares
Deep Neural Networks [4.228167013618626]
我々は,楕円型問題における導電率分布を再構築するために,ディープニューラルネットワークを用いた新しいアプローチを開発した。
連続的および経験的損失の両方に対して、導電率の深いニューラルネットワーク近似を徹底的に分析する。
論文 参考訳(メタデータ) (2023-03-29T04:43:03Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
論文 参考訳(メタデータ) (2020-07-04T04:40:16Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。