論文の概要: Typical and atypical solutions in non-convex neural networks with
discrete and continuous weights
- arxiv url: http://arxiv.org/abs/2304.13871v2
- Date: Mon, 24 Jul 2023 11:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 23:01:48.280191
- Title: Typical and atypical solutions in non-convex neural networks with
discrete and continuous weights
- Title(参考訳): 離散および連続重みをもつ非凸ニューラルネットワークにおける典型的および非典型的解
- Authors: Carlo Baldassi, Enrico M. Malatesta, Gabriele Perugini, Riccardo
Zecchina
- Abstract要約: ランダムな規則や関連を学習する単純な非拘束型ネットワークモデルとして、二項および連続負マージンパーセプトロンについて検討する。
どちらのモデルも、非常に平坦で幅の広い劣支配的な最小化器を示す。
両モデルにおいて、学習装置としての一般化性能は、広い平坦な最小化器の存在により大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 2.7127628066830414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the binary and continuous negative-margin perceptrons as simple
non-convex neural network models learning random rules and associations. We
analyze the geometry of the landscape of solutions in both models and find
important similarities and differences. Both models exhibit subdominant
minimizers which are extremely flat and wide. These minimizers coexist with a
background of dominant solutions which are composed by an exponential number of
algorithmically inaccessible small clusters for the binary case (the frozen
1-RSB phase) or a hierarchical structure of clusters of different sizes for the
spherical case (the full RSB phase). In both cases, when a certain threshold in
constraint density is crossed, the local entropy of the wide flat minima
becomes non-monotonic, indicating a break-up of the space of robust solutions
into disconnected components. This has a strong impact on the behavior of
algorithms in binary models, which cannot access the remaining isolated
clusters. For the spherical case the behaviour is different, since even beyond
the disappearance of the wide flat minima the remaining solutions are shown to
always be surrounded by a large number of other solutions at any distance, up
to capacity. Indeed, we exhibit numerical evidence that algorithms seem to find
solutions up to the SAT/UNSAT transition, that we compute here using an 1RSB
approximation. For both models, the generalization performance as a learning
device is shown to be greatly improved by the existence of wide flat minimizers
even when trained in the highly underconstrained regime of very negative
margins.
- Abstract(参考訳): ランダムなルールや関連を学習する単純な非凸ニューラルネットワークモデルとして,二進および連続負マージンパーセプトロンの研究を行った。
両モデルにおける解の風景形状を解析し、重要な類似点と相違点を求める。
どちらのモデルも非常に平坦で幅の広い準支配的な最小値を示す。
これらの最小化は、二項の場合(凍った1-rsb相)のアルゴリズムで到達不能な小さなクラスターの指数数と、球面の場合(全rsb相)の異なる大きさのクラスターの階層構造からなる支配的解の背景と共存する。
どちらの場合も、制約密度の一定のしきい値が交差すると、広い平坦なミニマの局所エントロピーは非単調となり、ロバスト解の空間を非連結成分に分解することを示す。
これはバイナリモデルにおけるアルゴリズムの振る舞いに大きな影響を与え、残りの孤立したクラスタにアクセスできない。
球面の場合の挙動は異なり、広い平らなミニマの消失を超えても、残りの解は常に任意の距離の他の多くの解によって取り囲まれていることが示される。
実際、1RSB近似を用いて計算したSAT/UNSAT遷移の解をアルゴリズムが見つけ出すという数値的な証拠を示す。
いずれのモデルにおいても, 学習装置としての一般化性能は, 極端に負のマージンを持つ高度に訓練された場合においても, 広い平坦な最小値の存在により著しく向上することが示されている。
関連論文リスト
- Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks [0.0]
我々は,典型的な状態の重なり合いの有無にかかわらず,グラディエントDescentはキャパシティに到達できないことを示す。
この発見は勾配に基づくアルゴリズムが極めて非定型な状態に偏っていることを示唆している。
論文 参考訳(メタデータ) (2024-10-09T09:41:28Z) - Message Passing Neural PDE Solvers [60.77761603258397]
我々は、バックプロップ最適化されたニューラル関数近似器で、グラフのアリーデザインのコンポーネントを置き換えるニューラルメッセージパッシング解決器を構築した。
本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。
本研究では, 異なる領域のトポロジ, 方程式パラメータ, 離散化などにおける高速, 安定, 高精度な性能を, 1次元, 2次元で検証する。
論文 参考訳(メタデータ) (2022-02-07T17:47:46Z) - Deep Networks on Toroids: Removing Symmetries Reveals the Structure of
Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。
最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。
また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文 参考訳(メタデータ) (2022-02-07T09:57:54Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Learning through atypical ''phase transitions'' in overparameterized
neural networks [0.43496401697112685]
現在のディープニューラルネットワークは可観測性が高く(最大数十億の接続重み)、非線形である。
しかし、過剰な降下アルゴリズムによってほぼ完全にデータに適合し、予期せぬ精度の予測を達成できる。
これらは一般化なしの恐ろしい挑戦である。
論文 参考訳(メタデータ) (2021-10-01T23:28:07Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Unveiling the structure of wide flat minima in neural networks [0.46664938579243564]
ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
論文 参考訳(メタデータ) (2021-07-02T16:04:57Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Properties of the geometry of solutions and capacity of multi-layer neural networks with Rectified Linear Units activations [2.3018169548556977]
本稿では,2層ニューラルネットワークにおける線形整流ユニットが解空間の容量および幾何学的景観に与える影響について検討する。
予想外のことに、隠れた層内のニューロン数が増加するにつれて、ネットワークの容量は有限であることがわかった。
おそらくもっと重要なことは、大きな偏差のアプローチによって、解空間の幾何学的景観が特異な構造を持つことを見つけることができるということである。
論文 参考訳(メタデータ) (2019-07-17T15:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。