論文の概要: Analysis of Linear Mode Connectivity via Permutation-Based Weight
Matching
- arxiv url: http://arxiv.org/abs/2402.04051v2
- Date: Mon, 19 Feb 2024 10:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 02:56:59.252374
- Title: Analysis of Linear Mode Connectivity via Permutation-Based Weight
Matching
- Title(参考訳): 順列型重みマッチングによる線形モード接続の解析
- Authors: Akira Ito, Masanori Yamada, Atsutoshi Kumagai
- Abstract要約: We use weight matching (WM) to identify permutation that satisfy linear mode connection (LMC)。
We show that permutations found by WM may not significantly reduce the $L$ distance between two models。
また、置換はモデル全体の大きな特異値に付随する特異ベクトルの方向を変えることができることを示す。
- 参考スコア(独自算出の注目度): 16.81623299111358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Ainsworth et al. showed that using weight matching (WM) to minimize
the $L_2$ distance in a permutation search of model parameters effectively
identifies permutations that satisfy linear mode connectivity (LMC), in which
the loss along a linear path between two independently trained models with
different seeds remains nearly constant. This paper provides a theoretical
analysis of LMC using WM, which is crucial for understanding stochastic
gradient descent's effectiveness and its application in areas like model
merging. We first experimentally and theoretically show that permutations found
by WM do not significantly reduce the $L_2$ distance between two models and the
occurrence of LMC is not merely due to distance reduction by WM in itself. We
then provide theoretical insights showing that permutations can change the
directions of the singular vectors, but not the singular values, of the weight
matrices in each layer. This finding shows that permutations found by WM mainly
align the directions of singular vectors associated with large singular values
across models. This alignment brings the singular vectors with large singular
values, which determine the model functionality, closer between pre-merged and
post-merged models, so that the post-merged model retains functionality similar
to the pre-merged models, making it easy to satisfy LMC. Finally, we analyze
the difference between WM and straight-through estimator (STE), a
dataset-dependent permutation search method, and show that WM outperforms STE,
especially when merging three or more models.
- Abstract(参考訳): 近年、Ainsworthらは、モデルパラメータの置換探索において、重量マッチング(WM)を用いて$L_2$距離を最小にするため、線形モード接続(LMC)を満たす置換を効果的に同定し、異なる種を持つ2つの独立に訓練されたモデル間の線形経路の損失がほぼ一定であることを示した。
本稿では,WMを用いたLCCの理論解析を行い,確率勾配降下の有効性とモデルマージなどの分野への応用について考察する。
まず,WM が検出した置換が 2 つのモデル間の距離を著しく減少させるわけではなく,LCC の発生は WM 自体の距離減少によるものではないことを実験的に理論的に示す。
次に、置換が各層における重み行列の特異ベクトルの方向を変えることができるが、特異値ではないことを示す理論的洞察を与える。
この発見は、WM によって発見された置換が、主にモデル全体の大きな特異値に付随する特異ベクトルの方向と一致していることを示している。
このアライメントにより、モデル機能を決定する特異ベクトルは、事前マージされたモデルと後マージされたモデルの間により近いため、後マージされたモデルは、事前マージされたモデルと同様の機能を保持し、lmcを満足させるのが容易となる。
最後に、データセット依存の置換探索法であるWMとストレートスルー推定器(STE)の違いを分析し、特に3つ以上のモデルを統合する場合、WMがSTEより優れていることを示す。
関連論文リスト
- Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - The Generalization Error of Stochastic Mirror Descent on
Over-Parametrized Linear Models [37.6314945221565]
ディープネットワークは、目に見えないデータにうまく一般化することが知られている。
正規化特性は「良い」性質を持つ補間解が見つかることを保証している。
理論を検証し、2つのデータモデルを導入するシミュレーション結果を提案する。
論文 参考訳(メタデータ) (2023-02-18T22:23:42Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - Sampling Approximately Low-Rank Ising Models: MCMC meets Variational
Methods [35.24886589614034]
一般相互作用が$J$である超キューブ上の二次定値イジングモデルを考える。
我々の一般的な結果は、低ランクのIsingモデルに対する最初のサンプリングアルゴリズムを示唆している。
論文 参考訳(メタデータ) (2022-02-17T21:43:50Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Robust Multi-view Registration of Point Sets with Laplacian Mixture
Model [25.865100974015412]
重み付きラプラシアン分布に基づいて複数の点集合を整列させる新しい確率的生成法を提案する。
本稿では,提案手法の利点を,ベンチマークの挑戦的データセットに対する最先端手法と比較することによって示す。
論文 参考訳(メタデータ) (2021-10-26T14:49:09Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z) - On the Adversarial Robustness of LASSO Based Feature Selection [72.54211869067979]
検討されたモデルでは、悪意のある敵がデータセット全体を観察し、レスポンス値やフィーチャーマトリックスを慎重に修正する。
両レベルの最適化問題として、敵の修正戦略を定式化する。
合成および実データを用いた数値的な例は,本手法が効率的かつ効果的であることを示している。
論文 参考訳(メタデータ) (2020-10-20T05:51:26Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。