論文の概要: Simultaneous linear connectivity of neural networks modulo permutation
- arxiv url: http://arxiv.org/abs/2404.06498v1
- Date: Tue, 9 Apr 2024 17:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 13:42:03.006511
- Title: Simultaneous linear connectivity of neural networks modulo permutation
- Title(参考訳): ニューラルネットワーク変調の同時線形接続
- Authors: Ekansh Sharma, Devin Kwok, Tom Denton, Daniel M. Roy, David Rolnick, Gintare Karolina Dziugaite,
- Abstract要約: 最近の研究は、置換対称性は適切に置換されたソースのみであると主張している。
対照的に、各対のネットワークに対して、他のネットワークと接続する1つの置換が存在するという主張は「強く」存在する。
- 参考スコア(独自算出の注目度): 38.833555803442835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks typically exhibit permutation symmetries which contribute to the non-convexity of the networks' loss landscapes, since linearly interpolating between two permuted versions of a trained network tends to encounter a high loss barrier. Recent work has argued that permutation symmetries are the only sources of non-convexity, meaning there are essentially no such barriers between trained networks if they are permuted appropriately. In this work, we refine these arguments into three distinct claims of increasing strength. We show that existing evidence only supports "weak linear connectivity"-that for each pair of networks belonging to a set of SGD solutions, there exist (multiple) permutations that linearly connect it with the other networks. In contrast, the claim "strong linear connectivity"-that for each network, there exists one permutation that simultaneously connects it with the other networks-is both intuitively and practically more desirable. This stronger claim would imply that the loss landscape is convex after accounting for permutation, and enable linear interpolation between three or more independently trained models without increased loss. In this work, we introduce an intermediate claim-that for certain sequences of networks, there exists one permutation that simultaneously aligns matching pairs of networks from these sequences. Specifically, we discover that a single permutation aligns sequences of iteratively trained as well as iteratively pruned networks, meaning that two networks exhibit low loss barriers at each step of their optimization and sparsification trajectories respectively. Finally, we provide the first evidence that strong linear connectivity may be possible under certain conditions, by showing that barriers decrease with increasing network width when interpolating among three networks.
- Abstract(参考訳): ニューラルネットワークは通常、ネットワークの損失ランドスケープの非凸性に寄与する置換対称性を示す。
最近の研究は、置換対称性が非凸性の唯一の源であると主張している。
本研究では,これらの主張を,強みを増すという3つの異なる主張に洗練する。
既存のエビデンスは「弱線形接続」のみをサポートし、SGDソリューションに属する各ネットワークに対して、他のネットワークと線形に接続する(複数の)置換が存在することを示す。
対照的に、「強い線形接続」という主張は、各ネットワークに対して、他のネットワークと同時に接続する1つの置換が存在し、直感的にも実際的にも望ましいものである。
この強い主張は、損失ランドスケープは置換の後に凸であり、損失を増やすことなく3つ以上の独立に訓練されたモデル間の線形補間を可能にすることを意味する。
本研究では、あるネットワーク列に対して、これらのシーケンスから一致するネットワーク対を同時に整列する1つの置換が存在するという中間的クレームを導入する。
具体的には、1つの置換が反復的に訓練されたネットワークのシーケンスと反復的に切断されたネットワークの配列とを一致させることに気づき、それぞれの最適化とスペーサー化の軌跡の各ステップで2つのネットワークが低損失障壁を示す。
最後に、3つのネットワーク間の補間において、ネットワーク幅の増大に伴って障壁が減少することを示すことにより、ある条件下で強い線形接続が可能であることを示す。
関連論文リスト
- Exploring the loss landscape of regularized neural networks via convex duality [42.48510370193192]
本稿では,正規化ニューラルネットワークのロスランドスケープのいくつかの側面について論じる。
まず、その双対を用いて凸問題の解集合を特徴づけ、さらに全ての定常点を特徴づける。
ソリューションセットの特徴付けと接続結果は、異なるアーキテクチャに拡張可能であることを示す。
論文 参考訳(メタデータ) (2024-11-12T11:41:38Z) - When Are Bias-Free ReLU Networks Like Linear Networks? [7.197469507060226]
バイアスのないReLUネットワークは線形ネットワークと同じ学習力学を持つことを示す。
バイアスのないReLUネットワークは2層ネットワークよりも表現力が高いが、深い線形ネットワークと多くの類似点を共有している。
論文 参考訳(メタデータ) (2024-06-18T13:43:58Z) - On permutation symmetries in Bayesian neural network posteriors: a
variational perspective [8.310462710943971]
勾配降下の局所解には本質的に損失障壁がないことを示す。
これにより、ベイズニューラルネットワークにおける近似推論に関する疑問が提起される。
線形接続された解を探索するマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T08:26:50Z) - Hierarchical Multi-Marginal Optimal Transport for Network Alignment [52.206006379563306]
マルチネットワークアライメントは,複数ネットワーク上での協調学習に必須の要件である。
マルチネットワークアライメントのための階層型マルチマージ最適トランスポートフレームワークHOTを提案する。
提案するHOTは,有効性とスケーラビリティの両面で,最先端の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-10-06T02:35:35Z) - Randomly Initialized One-Layer Neural Networks Make Data Linearly
Separable [1.2277343096128712]
十分な幅が与えられると、ランダムに1層ニューラルネットワークは2つの集合を2つの線形分離可能な集合に変換することができる。
本論文は, 十分な幅が与えられると, ランダムに一層ニューラルネットワークが2つの集合を2つの線形分離可能な集合に変換できることを示す。
論文 参考訳(メタデータ) (2022-05-24T01:38:43Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Artificial Neural Networks generated by Low Discrepancy Sequences [59.51653996175648]
我々は、高密度ネットワークグラフ上のランダムウォーキングとして、人工ニューラルネットワークを生成する。
このようなネットワークはスクラッチからスパースを訓練することができ、高密度ネットワークをトレーニングし、その後圧縮する高価な手順を避けることができる。
我々は,低差分シーケンスで生成された人工ニューラルネットワークが,より低い計算複雑性で,密度の高いニューラルネットワークの到達範囲内で精度を達成できることを実証した。
論文 参考訳(メタデータ) (2021-03-05T08:45:43Z) - PlueckerNet: Learn to Register 3D Line Reconstructions [57.20244406275875]
本稿では,ユークリッド空間における2つの部分重畳された3次元線再構成の問題をニューラルネットワークで解く手法を提案する。
室内および屋外の両方のデータセットを用いた実験により,本手法の登録精度(回転と翻訳)は,ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-02T11:31:56Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。