論文の概要: Analyzing the Role of Permutation Invariance in Linear Mode Connectivity
- arxiv url: http://arxiv.org/abs/2503.06001v2
- Date: Wed, 12 Mar 2025 16:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 12:14:47.350420
- Title: Analyzing the Role of Permutation Invariance in Linear Mode Connectivity
- Title(参考訳): 線形モード接続性における置換不変性の役割の解析
- Authors: Keyao Zhan, Puheng Li, Lei Wu,
- Abstract要約: 学生ネットワーク幅が$m$増加するにつれて、LCC損失障壁変調は二重降下挙動を示す。
学習率の増加に伴うGD/SGD溶液の分散度の変化を観察し,この分散度がLCC損失障壁変調に与える影響について検討した。
- 参考スコア(独自算出の注目度): 4.516746821973374
- License:
- Abstract: It was empirically observed in Entezari et al. (2021) that when accounting for the permutation invariance of neural networks, there is likely no loss barrier along the linear interpolation between two SGD solutions -- a phenomenon known as linear mode connectivity (LMC) modulo permutation. This phenomenon has sparked significant attention due to both its theoretical interest and practical relevance in applications such as model merging. In this paper, we provide a fine-grained analysis of this phenomenon for two-layer ReLU networks under a teacher-student setup. We show that as the student network width $m$ increases, the LMC loss barrier modulo permutation exhibits a double descent behavior. Particularly, when $m$ is sufficiently large, the barrier decreases to zero at a rate $O(m^{-1/2})$. Notably, this rate does not suffer from the curse of dimensionality and demonstrates how substantial permutation can reduce the LMC loss barrier. Moreover, we observe a sharp transition in the sparsity of GD/SGD solutions when increasing the learning rate and investigate how this sparsity preference affects the LMC loss barrier modulo permutation. Experiments on both synthetic and MNIST datasets corroborate our theoretical predictions and reveal a similar trend for more complex network architectures.
- Abstract(参考訳): Entezari et al (2021) では、ニューラルネットワークの置換不変性を考慮すると、2つのSGD解間の線形補間に損失障壁がない可能性が実証された。
この現象は、モデルマージのような応用における理論的関心と実践的関連性の両方から大きな注目を集めた。
本稿では,教師-学生構成下の2層ReLUネットワークに対して,この現象のきめ細かい解析を行う。
学生ネットワーク幅が$m$増加するにつれて、LCC損失障壁変調は二重降下挙動を示す。
特に、$m$が十分大きいとき、障壁は$O(m^{-1/2})$でゼロになる。
特に、この速度は次元の呪いに苦しめられず、実質的な置換がLCC損失障壁を減少させることを示す。
さらに,学習率の増加に伴うGD/SGD溶液の分散性の急激な推移を観察し,この分散度がLCC損失障壁変調に与える影響について検討した。
合成およびMNISTデータセットの実験は、我々の理論的予測を裏付け、より複雑なネットワークアーキテクチャの傾向を明らかにする。
関連論文リスト
- Universal Response and Emergence of Induction in LLMs [0.0]
残水流の弱いシングルトーケン摂動に対する応答を探索し, LLM内の誘導挙動の出現について検討した。
LLMは、摂動強度の変化の下で、その応答がスケール不変な、頑健で普遍的な状態を示す。
その結果,LLM内のコンポーネントの集合的相互作用に関する知見が得られ,大規模回路解析のベンチマークとして機能することがわかった。
論文 参考訳(メタデータ) (2024-11-11T15:47:15Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Landscaping Linear Mode Connectivity [76.39694196535996]
線形モード接続(LMC)は理論と実用の両方の観点から関心を集めている。
ロスランドスケープがLCCに対して地形的にどのように振る舞う必要があるかのモデルを提供することで、その理解に向けて一歩前進する。
論文 参考訳(メタデータ) (2024-06-24T03:53:30Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。