論文の概要: Charting the Topography of the Neural Network Landscape with
Thermal-Like Noise
- arxiv url: http://arxiv.org/abs/2304.01335v2
- Date: Tue, 18 Apr 2023 06:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 17:19:43.044136
- Title: Charting the Topography of the Neural Network Landscape with
Thermal-Like Noise
- Title(参考訳): 熱的騒音によるニューラルネットワーク景観の地形図の作成
- Authors: Theo Jules, Gal Brener, Tal Kachman, Noam Levi, Yohai Bar-Sinai
- Abstract要約: ニューラルネットワークのトレーニングは、複雑で、高次元、非二次的、ノイズの多い最適化問題である。
本稿では,ランダムなデータネットワーク上での分類課題の研究にLangevin dynamics法を用いる。
揺らぎから容易に低次元の次元が得られることが分かる。
解析的に抽出可能であり,観測された変動統計を再現する簡易な損失モデルにより,この挙動を説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training of neural networks is a complex, high-dimensional, non-convex
and noisy optimization problem whose theoretical understanding is interesting
both from an applicative perspective and for fundamental reasons. A core
challenge is to understand the geometry and topography of the landscape that
guides the optimization. In this work, we employ standard Statistical Mechanics
methods, namely, phase-space exploration using Langevin dynamics, to study this
landscape for an over-parameterized fully connected network performing a
classification task on random data. Analyzing the fluctuation statistics, in
analogy to thermal dynamics at a constant temperature, we infer a clear
geometric description of the low-loss region. We find that it is a
low-dimensional manifold whose dimension can be readily obtained from the
fluctuations. Furthermore, this dimension is controlled by the number of data
points that reside near the classification decision boundary. Importantly, we
find that a quadratic approximation of the loss near the minimum is
fundamentally inadequate due to the exponential nature of the decision boundary
and the flatness of the low-loss region. This causes the dynamics to sample
regions with higher curvature at higher temperatures, while producing
quadratic-like statistics at any given temperature. We explain this behavior by
a simplified loss model which is analytically tractable and reproduces the
observed fluctuation statistics.
- Abstract(参考訳): ニューラルネットワークのトレーニングは複雑で高次元で非凸でノイズの多い最適化問題であり、理論的理解は応用的視点と基本的な理由の両方から興味深い。
主な課題は、最適化を導く景観の幾何学と地形を理解することである。
本研究では,Langevin dynamics を用いた位相空間探索という標準的な統計力学手法を用いて,ランダムデータに基づく分類タスクを実行する過度パラメータ付き完全連結ネットワークについて,この景観を考察する。
一定温度における熱力学に類似したゆらぎの統計を解析し、低損失領域の明確な幾何学的記述を推定する。
揺らぎから容易に次元が得られるような低次元多様体であることが分かる。
さらに、この次元は、分類決定境界付近に存在するデータポイントの数によって制御される。
重要なことは、決定境界の指数的性質と低損失領域の平坦性により、最小付近での損失の2次近似が根本的に不適切であることである。
これにより、より高温で曲率の高い領域にダイナミクスを生じさせ、任意の温度で二次的な統計を発生させる。
解析的に解析可能で観測されたゆらぎ統計を再現した簡易損失モデルを用いて,この挙動を説明する。
関連論文リスト
- Curvature in the Looking-Glass: Optimal Methods to Exploit Curvature of Expectation in the Loss Landscape [41.94295877935867]
我々は,多くの整列線形単位を持つアーキテクチャにおいて,期待される損失変化の曲率がどのように現れるかを理解するための新しい概念的枠組みを提案する。
我々の導出は、これらの不連続性がどのようにガラスのような構造を形成するかを示しており、これは強いがランダムな原子配列の微視的な領域を含む非晶質固体と類似している。
ガラスとヘッセンの項とネステロフ加速勾配更新で可能な特定の精度特性を組み込んだ準ニュートンステップの最適修正を導出する。
論文 参考訳(メタデータ) (2024-11-25T20:32:57Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Information-Theoretic Thresholds for Planted Dense Cycles [52.076657911275525]
本研究では,社会科学や生物科学においてユビキタスな小世界ネットワークのランダムグラフモデルについて検討する。
植え込み高密度サイクルの検出と回復の両面において、情報理論の閾値を$n$, $tau$、エッジワイド信号対雑音比$lambda$で特徴づける。
論文 参考訳(メタデータ) (2024-02-01T03:39:01Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Dynamic Causal Explanation Based Diffusion-Variational Graph Neural
Network for Spatio-temporal Forecasting [60.03169701753824]
時間予測のための動的拡散型グラフニューラルネットワーク(DVGNN)を提案する。
提案したDVGNNモデルは最先端のアプローチよりも優れ,Root Mean Squared Errorの結果が優れている。
論文 参考訳(メタデータ) (2023-05-16T11:38:19Z) - A physics and data co-driven surrogate modeling approach for temperature
field prediction on irregular geometric domain [12.264200001067797]
本研究では, 温度場予測のための新しい物理・データ共駆動サロゲートモデリング法を提案する。
数値計算により,本手法はより小さなデータセット上での精度予測を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2022-03-15T08:43:24Z) - Physics-informed Convolutional Neural Networks for Temperature Field
Prediction of Heat Source Layout without Labeled Data [9.71214034180507]
本稿では,熱シミュレーションサロゲートのための物理インフォームド畳み込みニューラルネットワーク(CNN)を開発した。
ネットワークは、熱源配置から、ラベル付きデータなしで定常温度場へのマッピングを学習でき、これは部分差分方程式(PDE)の族全体の解法と等しい。
論文 参考訳(メタデータ) (2021-09-26T03:24:23Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Towards Deeper Graph Neural Networks [63.46470695525957]
グラフ畳み込みは近傍の集約を行い、最も重要なグラフ操作の1つである。
いくつかの最近の研究で、この性能劣化は過度に滑らかな問題に起因している。
本研究では,大きな受容領域からの情報を適応的に組み込むディープ適応グラフニューラルネットワーク(DAGNN)を提案する。
論文 参考訳(メタデータ) (2020-07-18T01:11:14Z) - A Near-Optimal Gradient Flow for Learning Neural Energy-Based Models [93.24030378630175]
学習エネルギーベースモデル(EBM)の勾配流を最適化する新しい数値スキームを提案する。
フォッカー・プランク方程式から大域相対エントロピーの2階ワッサーシュタイン勾配流を導出する。
既存のスキームと比較して、ワッサーシュタイン勾配流は実データ密度を近似するより滑らかで近似的な数値スキームである。
論文 参考訳(メタデータ) (2019-10-31T02:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。