Fugu-MT 論文翻訳(概要): Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks

論文の概要: Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks

arxiv url: http://arxiv.org/abs/2410.06717v2
Date: Mon, 21 Oct 2024 08:45:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 04:00:11.277312
Title: Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks
Title（参考訳）: 無限広2層ニューラルネットワークにおける排他的フルRSBSAT/UNSAT遷移
Authors: Brandon L. Annesi, Enrico M. Malatesta, Francesco Zamponi,
Abstract要約: 我々は,典型的な状態の重なり合いの有無にかかわらず,グラディエントDescentはキャパシティに到達できないことを示す。この発見は勾配に基づくアルゴリズムが極めて非定型な状態に偏っていることを示唆している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We analyze the problem of storing random pattern-label associations using two classes of continuous non-convex weights models, namely the perceptron with negative margin and an infinite-width two-layer neural network with non-overlapping receptive fields and generic activation function. Using a full-RSB ansatz we compute the exact value of the SAT/UNSAT transition. Furthermore, in the case of the negative perceptron we show that the overlap distribution of typical states displays an overlap gap (a disconnected support) in certain regions of the phase diagram defined by the value of the margin and the density of patterns to be stored. This implies that some recent theorems that ensure convergence of Approximate Message Passing (AMP) based algorithms to capacity are not applicable. Finally, we show that Gradient Descent is not able to reach the maximal capacity, irrespectively of the presence of an overlap gap for typical states. This finding, similarly to what occurs in binary weight models, suggests that gradient-based algorithms are biased towards highly atypical states, whose inaccessibility determines the algorithmic threshold.
Abstract（参考訳）: 非凸重みモデルの2つのクラス、すなわち負のマージンを持つパーセプトロンと、重複しない受容場と一般的なアクティベーション関数を持つ無限幅の2層ニューラルネットワークを用いて、ランダムなパターンラベルアソシエーションを格納する問題を分析する。フルRSBアンサッツを用いてSAT/UNSAT遷移の正確な値を計算する。さらに、負のパーセプトロンの場合、典型的な状態の重なり合う分布は、マージンの値と保存するパターンの密度によって定義される位相図の特定の領域に重なり合うギャップ(非連結的な支持)を示すことを示す。これは、AMP(Adroximate Message Passing)ベースのアルゴリズムのキャパシティへの収束を保証する最近の定理が適用できないことを意味する。最後に, 典型的な状態の重なり合いの有無にかかわらず, グラディエントDescentは最大容量に到達できないことを示す。この発見は、二分重モデルで起こっていることと同様に、勾配に基づくアルゴリズムが非定型的な状態に偏り、その到達不能がアルゴリズムのしきい値を決定することを示唆している。

関連論文リスト

Exact and Asymptotically Complete Robust Verifications of Neural Networks via Quantum Optimization [9.728049285140736]
本稿では、ディープニューラルネットワークの堅牢な検証のための2つの量子最適化モデルを提案する。ベンチマークの実験では高い認証精度を示し、量子最適化がロバスト性を保証するための原則的プリミティブとして機能できることが示されている。
論文参考訳（メタデータ） (2026-02-28T02:05:02Z)
Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文参考訳（メタデータ） (2025-12-31T12:08:29Z)
A Scalable Quantum Neural Network for Approximate SRBB-Based Unitary Synthesis [1.3108652488669736]
この研究は、SRBB(Standard Recursive Block Basis)によるユニタリ進化を近似するためのスケーラブルな量子ニューラルネットワークを導入している。 CNOTの数を減少させるアルゴリズムが提案され、単一の近似層を必要とする新しい実装可能なスケーリングスキームが導出される。近似の有効性は、2つの勾配法と異なるメトリクスで測定される。
論文参考訳（メタデータ） (2024-12-04T07:21:23Z)
A U-turn on Double Descent: Rethinking Parameter Counting in Statistical Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。これは二重降下と統計的直観の間の緊張を解消する。
論文参考訳（メタデータ） (2023-10-29T12:05:39Z)
Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文参考訳（メタデータ） (2023-09-09T18:47:55Z)
Typical and atypical solutions in non-convex neural networks with discrete and continuous weights [2.7127628066830414]
ランダムな規則や関連を学習する単純な非拘束型ネットワークモデルとして、二項および連続負マージンパーセプトロンについて検討する。どちらのモデルも、非常に平坦で幅の広い劣支配的な最小化器を示す。両モデルにおいて、学習装置としての一般化性能は、広い平坦な最小化器の存在により大幅に向上することを示した。
論文参考訳（メタデータ） (2023-04-26T23:34:40Z)
On the Effect of Initialization: The Scaling Path of 2-Layer Neural Networks [21.69222364939501]
教師付き学習では、正規化経路はゼロからの勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。この経路がカーネルとリッチレジームの間に連続的に補間されていることを示す。
論文参考訳（メタデータ） (2023-03-31T05:32:11Z)
Interpolation-based Correlation Reduction Network for Semi-Supervised Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文参考訳（メタデータ） (2022-06-06T14:26:34Z)
Semi-Supervised Clustering of Sparse Graphs: Crossing the Information-Theoretic Threshold [3.6052935394000234]
ブロックモデルは、ネットワーク構造データのクラスタリングとコミュニティ検出のための標準ランダムグラフモデルである。ネットワークトポロジに基づく推定器は、モデルパラメータが一定の閾値以下である場合、スパースグラフの確率よりも大幅に向上する。パラメータ領域全体でラベルの任意の部分で実現可能であることを示す。
論文参考訳（メタデータ） (2022-05-24T00:03:25Z)
On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文参考訳（メタデータ） (2022-05-18T16:57:10Z)
The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文参考訳（メタデータ） (2022-02-13T07:12:02Z)
Bayesian neural network priors for edge-preserving inversion [3.2046720177804646]
重み付きニューラルネットワークの出力に基づく事前分布のクラスを導入する。ネットワーク幅が有限である場合でも,そのような先行する標本は不連続な性質が望ましいことを理論的に示す。
論文参考訳（メタデータ） (2021-12-20T16:39:05Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文参考訳（メタデータ） (2021-03-01T08:25:26Z)
Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。 ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文参考訳（メタデータ） (2020-12-28T05:14:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。