論文の概要: Disentangling Linear Mode-Connectivity
- arxiv url: http://arxiv.org/abs/2312.09832v1
- Date: Fri, 15 Dec 2023 14:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 15:29:43.090624
- Title: Disentangling Linear Mode-Connectivity
- Title(参考訳): 線形モード接続性の解消
- Authors: Gul Sena Altintas, Gregor Bachmann, Lorenzo Noci, Thomas Hofmann
- Abstract要約: リニアモード接続性(LMC)は、ニューラルネットワークの損失ランドスケープの興味深い特徴の1つである。
LMCは,(1)アーキテクチャ(スパーシティ,ウェイトシェアリング),(2)トレーニング戦略(最適化設定),(3)基礎となるデータセットの3つの要因によってどのように影響を受けるかを検討する。
- 参考スコア(独自算出の注目度): 36.892273709332954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear mode-connectivity (LMC) (or lack thereof) is one of the intriguing
characteristics of neural network loss landscapes. While empirically well
established, it unfortunately still lacks a proper theoretical understanding.
Even worse, although empirical data points are abound, a systematic study of
when networks exhibit LMC is largely missing in the literature. In this work we
aim to close this gap. We explore how LMC is affected by three factors: (1)
architecture (sparsity, weight-sharing), (2) training strategy (optimization
setup) as well as (3) the underlying dataset. We place particular emphasis on
minimal but non-trivial settings, removing as much unnecessary complexity as
possible. We believe that our insights can guide future theoretical works on
uncovering the inner workings of LMC.
- Abstract(参考訳): リニアモード接続性(LMC)は、ニューラルネットワークロスランドスケープの興味深い特徴の1つである。
経験的によく確立されているが、残念ながら適切な理論的理解が欠けている。
さらに悪いことに、経験的データポイントは多いが、LMCを示すネットワークが文献にほとんど欠けているという体系的な研究がある。
この作業では、このギャップを埋めることを目指しています。
LMCは,(1)アーキテクチャ(スパーシティ,ウェイトシェアリング),(2)トレーニング戦略(最適化設定),(3)基礎となるデータセットの3つの要因にどのように影響するかを検討する。
最小限の設定に特に重点を置いており、可能な限り不要な複雑さを取り除いています。
我々の洞察は、lmcの内部動作を明らかにする今後の理論的研究を導くことができると信じている。
関連論文リスト
- Landscaping Linear Mode Connectivity [76.39694196535996]
線形モード接続(LMC)は理論と実用の両方の観点から関心を集めている。
ロスランドスケープがLCCに対して地形的にどのように振る舞う必要があるかのモデルを提供することで、その理解に向けて一歩前進する。
論文 参考訳(メタデータ) (2024-06-24T03:53:30Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - Understanding and Leveraging the Learning Phases of Neural Networks [7.1169582271841625]
深層ニューラルネットワークの学習力学はよく理解されていない。
本研究では,入力および予測性能の層再構築能力について検討し,学習力学を包括的に解析する。
本稿では,ResNetやVGGといった共通データセットとアーキテクチャを用いた3つのフェーズの存在を示す。
論文 参考訳(メタデータ) (2023-12-11T23:20:58Z) - Going Beyond Linear Mode Connectivity: The Layerwise Linear Feature
Connectivity [62.11981948274508]
LLFCの超越についての研究は,特徴学習の視点を取り入れることでLCCの理解を深める。
LLFCの総合的な実証的証拠として,2つの訓練ネットワークがLCCを満たす場合,ほぼすべての層でLLFCを満足することを示す。
論文 参考訳(メタデータ) (2023-07-17T07:16:28Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Towards Understanding Mixture of Experts in Deep Learning [95.27215939891511]
ニューラルネットワーク学習におけるMoE層の性能向上について検討する。
この結果から,基礎となる問題のクラスタ構造と専門家の非線形性は,MoEの成功に欠かせないことが示唆された。
論文 参考訳(メタデータ) (2022-08-04T17:59:10Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Towards Understanding Learning in Neural Networks with Linear Teachers [31.849269592822296]
我々は,この学習問題をLaky ReLUアクティベートした2層ネットワークに対して,SGDがグローバルに最適化していることを証明する。
ネットワーク重みが2つの重みクラスターに収束すると、これは概線形決定境界となることを証明し、この現象を理論的に支持する。
論文 参考訳(メタデータ) (2021-01-07T13:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。