論文の概要: Learning through atypical ''phase transitions'' in overparameterized
neural networks
- arxiv url: http://arxiv.org/abs/2110.00683v1
- Date: Fri, 1 Oct 2021 23:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:44:25.473172
- Title: Learning through atypical ''phase transitions'' in overparameterized
neural networks
- Title(参考訳): 過パラメータニューラルネットワークにおける非定型'相転移'による学習
- Authors: Carlo Baldassi, Clarissa Lauditi, Enrico M. Malatesta, Rosalba
Pacelli, Gabriele Perugini, Riccardo Zecchina
- Abstract要約: 現在のディープニューラルネットワークは可観測性が高く(最大数十億の接続重み)、非線形である。
しかし、過剰な降下アルゴリズムによってほぼ完全にデータに適合し、予期せぬ精度の予測を達成できる。
これらは一般化なしの恐ろしい挑戦である。
- 参考スコア(独自算出の注目度): 0.43496401697112685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current deep neural networks are highly overparameterized (up to billions of
connection weights) and nonlinear. Yet they can fit data almost perfectly
through variants of gradient descent algorithms and achieve unexpected levels
of prediction accuracy without overfitting. These are formidable results that
escape the bias-variance predictions of statistical learning and pose
conceptual challenges for non-convex optimization. In this paper, we use
methods from statistical physics of disordered systems to analytically study
the computational fallout of overparameterization in nonconvex neural network
models. As the number of connection weights increases, we follow the changes of
the geometrical structure of different minima of the error loss function and
relate them to learning and generalisation performance. We find that there
exist a gap between the SAT/UNSAT interpolation transition where solutions
begin to exist and the point where algorithms start to find solutions, i.e.
where accessible solutions appear. This second phase transition coincides with
the discontinuous appearance of atypical solutions that are locally extremely
entropic, i.e., flat regions of the weight space that are particularly
solution-dense and have good generalization properties. Although exponentially
rare compared to typical solutions (which are narrower and extremely difficult
to sample), entropic solutions are accessible to the algorithms used in
learning. We can characterize the generalization error of different solutions
and optimize the Bayesian prediction, for data generated from a structurally
different network. Numerical tests on observables suggested by the theory
confirm that the scenario extends to realistic deep networks.
- Abstract(参考訳): 現在のディープニューラルネットワークは、超過パラメータ(数十億の接続重み)と非線形である。
しかし、データはほぼ完全に勾配降下アルゴリズムの変種を通して適合し、過度に適合することなく予測精度の予期せぬレベルを達成することができる。
これらの結果は統計的学習のバイアス分散予測を回避し、非凸最適化のための概念的課題を提起する。
本稿では,非凸ニューラルネットワークモデルにおける過度パラメータ化の計算フォールアウトを解析的に研究するために,障害系の統計物理学からの手法を用いる。
接続重みの数が増加するにつれて、誤り損失関数の異なるミニマの幾何学的構造の変化に追従し、学習と一般化のパフォーマンスに関連付ける。
我々は、解が存在するSAT/UNSAT補間遷移と、アルゴリズムが解を見つけ始める点、すなわちアクセス可能な解が現れる点の間にギャップがあることを発見した。
この第二相転移は、局所的に非常にエントロピーな非定型解の不連続な出現、すなわち、特に解度が高く、一般化特性が良い重み空間の平坦な領域と一致する。
典型的な解(より狭く、非常にサンプリングが難しい)に比べて指数関数的に珍しいが、エントロピック解は学習に使用されるアルゴリズムにアクセスできる。
異なる解の一般化誤差を特徴付け、構造的に異なるネットワークから生成されたデータに対してベイズ予測を最適化することができる。
理論によって示唆される可観測性に関する数値的なテストでは、シナリオが現実的なディープネットワークに拡張されていることが確認できる。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - The Unreasonable Effectiveness of Solving Inverse Problems with Neural Networks [24.766470360665647]
逆問題に対する解を学ぶために訓練されたニューラルネットワークは、トレーニングセット上でも古典よりも優れた解を見つけることができることを示す。
高速な推論のために新しいデータに一般化するのではなく、既知のデータに対するより良い解決策を見つけるためにも使用できる。
論文 参考訳(メタデータ) (2024-08-15T12:38:10Z) - Neural variational Data Assimilation with Uncertainty Quantification using SPDE priors [28.804041716140194]
ディープラーニングコミュニティの最近の進歩は、ニューラルネットワークと変分データ同化フレームワークを通じて、この問題に対処することができる。
本研究では、部分微分方程式(SPDE)とガウス過程(GP)の理論を用いて状態の空間的および時間的共分散を推定する。
論文 参考訳(メタデータ) (2024-02-02T19:18:12Z) - Solutions to Elliptic and Parabolic Problems via Finite Difference Based Unsupervised Small Linear Convolutional Neural Networks [1.124958340749622]
線形畳み込みニューラルネットワークを用いてPDEの有限差分解を直接推定するために、トレーニングデータを必要としない完全に教師なしのアプローチを提案する。
提案手法は、類似の有限差分に基づくアプローチよりもパラメータを著しく少なくし、また、いくつかの選択された楕円型および放物型問題に対する真の解に匹敵する精度を示す。
論文 参考訳(メタデータ) (2023-11-01T03:15:10Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Message Passing Neural PDE Solvers [60.77761603258397]
我々は、バックプロップ最適化されたニューラル関数近似器で、グラフのアリーデザインのコンポーネントを置き換えるニューラルメッセージパッシング解決器を構築した。
本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。
本研究では, 異なる領域のトポロジ, 方程式パラメータ, 離散化などにおける高速, 安定, 高精度な性能を, 1次元, 2次元で検証する。
論文 参考訳(メタデータ) (2022-02-07T17:47:46Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Efficient and Sparse Neural Networks by Pruning Weights in a
Multiobjective Learning Approach [0.0]
本稿では、予測精度とネットワーク複雑性を2つの個別目的関数として扱うことにより、ニューラルネットワークのトレーニングに関する多目的視点を提案する。
模範的畳み込みニューラルネットワークの予備的な数値結果から、ニューラルネットワークの複雑性の大幅な低減と精度の低下が可能であることが確認された。
論文 参考訳(メタデータ) (2020-08-31T13:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。