論文の概要: Proving Linear Mode Connectivity of Neural Networks via Optimal
Transport
- arxiv url: http://arxiv.org/abs/2310.19103v2
- Date: Fri, 1 Mar 2024 18:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 20:25:12.086897
- Title: Proving Linear Mode Connectivity of Neural Networks via Optimal
Transport
- Title(参考訳): 最適輸送によるニューラルネットワークの線形モード接続性証明
- Authors: Damien Ferbach, Baptiste Goujaud, Gauthier Gidel, Aymeric Dieuleveut
- Abstract要約: この経験的観察を理論的に説明する枠組みを提供する。
ワッサーシュタイン収束率を規定する支持重み分布ニューロンがモード接続性とどのように相関するかを示す。
- 参考スコア(独自算出の注目度): 27.794244660649085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The energy landscape of high-dimensional non-convex optimization problems is
crucial to understanding the effectiveness of modern deep neural network
architectures. Recent works have experimentally shown that two different
solutions found after two runs of a stochastic training are often connected by
very simple continuous paths (e.g., linear) modulo a permutation of the
weights. In this paper, we provide a framework theoretically explaining this
empirical observation. Based on convergence rates in Wasserstein distance of
empirical measures, we show that, with high probability, two wide enough
two-layer neural networks trained with stochastic gradient descent are linearly
connected. Additionally, we express upper and lower bounds on the width of each
layer of two deep neural networks with independent neuron weights to be
linearly connected. Finally, we empirically demonstrate the validity of our
approach by showing how the dimension of the support of the weight distribution
of neurons, which dictates Wasserstein convergence rates is correlated with
linear mode connectivity.
- Abstract(参考訳): 高次元非凸最適化問題のエネルギー展望は、現代のディープニューラルネットワークアーキテクチャの有効性を理解する上で重要である。
最近の研究では、確率的トレーニングの2回の実行後に見つかる2つの異なる解が、しばしば非常に単純な連続経路(例えば、線形)で連結されることが実験的に示されている。
本稿では,この経験的観察を理論的に説明する枠組みを提供する。
経験的尺度のワッサーシュタイン距離の収束率に基づいて,確率勾配勾配で訓練された2層ニューラルネットワークが線形に接続されていることを示す。
さらに,2つのディープニューラルネットワークの各層に,独立したニューロン重みを線形に連結した上層と下層の境界を表現した。
最後に,ワッサースタイン収束率を決定する神経細胞の重み分布の寸法が線形モード接続とどのように相関しているかを示すことにより,本手法の有効性を実証した。
関連論文リスト
- Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Linear approximability of two-layer neural networks: A comprehensive
analysis based on spectral decay [4.042159113348107]
まず、単一ニューロンの場合について考察し、コルモゴロフ幅で定量化される線形近似性は、共役核の固有値崩壊によって制御されることを示す。
また,2層ニューラルネットワークについても同様の結果が得られた。
論文 参考訳(メタデータ) (2021-08-10T23:30:29Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Global Convergence of Second-order Dynamics in Two-layer Neural Networks [10.415177082023389]
近年の研究では, 2層完全連結ニューラルネットワークの場合, 勾配流は無限幅限界において大域的最適に収束することが示されている。
重球法では正の解が得られた。
我々の結果は平均場限界で機能するが、数値シミュレーションにより、大域収束は、合理的に小さなネットワークで既に発生している可能性が示唆されている。
論文 参考訳(メタデータ) (2020-07-14T07:01:57Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。